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統計如 何說洛 
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譯 e 



看了 第一本 有關統 計謊言 的著作 How to Lie with Statistics by Darrell Huff, 1954 ， 立 

論精闢 ， 雖然書 中一些 例子已 經過時 ， 理據依 然對照 現在的 「統計 誤世」 年代 。 
電 腦軟件 又引進 了一些 新工具 和誤區 。 考 慮之下 ， 為 保留原 作面貌 ， 選擇 譯本每 
章分為 兩部份 。 第一 部份翻 譯原書 （略 有刪節 ， 省掉 沒有歷 史背景 資料很 難明白 
的例子 ） ， 第 二部份 選譯補 充材料 ， 主要 參考如 何利用 統計數 據撒謊 ( WikiHow ) 、 
統計學 〈維基 百科〉 、統 計誤用 〈維 基百 科〉、 Misleading graph 〈維基 百科〉 以及 
其他網 頁資料 。 
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統計 的重要 
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複雜的 現代社 會離不 開調査 和統計 。 相關人 員收集 、 整理 、 歸納 、 分析數 據和發 
表結果 ， 廣泛應 用在自 然科學 、 社會科 學和人 文科學 ， 也用 於決定 工商業 及政府 
政策 。 日 常生活 躲也躲 不了的 廣告也 每每以 統計數 據引導 消費者 。 

統計是 為面對 不定狀 況制定 決策提 供方法 的科學 。 統 計學和 機率論 的關係 異常密 
切 ， 事 實上任 何統計 問題的 研究都 必涉及 機率論 的運用 ， 後 者實為 前者的 主要工 

具 。 統計 可以是 利用現 有數據 或通過 調查取 得數據 。 除非 母體群 population) 規 

模特小 ， 調查 可以覆 蓋全部 ， 一般調 查是以 取樣方 式進行 ： 捜集小 量數據 （樣本 
sample) 的資料 以估計 、 預測 和研究 母體群 。 

統計陷 阱帶來 的負面 影響可 大可小 。 基於錯 誤統計 的政策 可能差 之毫厘 ， 謬以千 
里 ； 醫學的 統計陷 阱可能 要數十 年後才 被糾正 ， 招致人 命損失 。 近 代廣告 特多統 
計數 字引導 誤導消 費者。 

要 了解統 計的諸 多陷阱 ， 先 看看一 般統計 的流程 。 

利 用現有 數據的 統計主 要是案 頭作業 ， 這 方面的 陷阱亦 見諸調 查統計 。 要 捜尋未 
知 的數據 ， 抽 樣調査 是最常 用的搜 集方法 。 

一 般而言 ， 統計作 業的步 驟如下 ： 

1. 決定調 查主題 。 

2. 決定收 集資料 的方法 ： （a) 書面 作業或 (b) 調查 ： 面對 面訪問 ， 郵 寄問卷 、 電話 

訪 問或混 合運用 。 

3. 界定 (a) 書面 作業的 範圍或 (b) 抽樣 調査的 母體群 。 

4. 決定 (b) 抽 樣使用 的母體 群清冊 ： 如電話 號碼簿 、 會 員名單 、 戶籍 資料等 。 

5. 決定 (b) 抽 樣方式 ： 隨 機抽樣 、 分 層抽樣 、 系統抽 樣或分 段抽樣 。 



亦作 parent population, universe ； 有譯為 「總體 ' 母體 '母 群」。 



6. 決定 (b) 樣 本大小 ； 若 需分層 ， 需決 定分層 方式及 各層樣 本大小 。 

7. (b) 進 行抽樣 ， 選取樣 本元素 。 

8. 設計 (b) 收 集資料 的形式 ； 設計調 查問卷 ， 預試 。 

9. (a) 彙 集資料 ； （b) 執行 調查 ， 向 樣本收 集反饋 。 

10. (a) 和 (b) 資 料檢誤 、 處理 及分析 。 

11. (a) 和 (b) 發 表結果 。 

從 上可見 ， 每 一步驟 都涉及 人為因 素和諸 多可操 控手段 。 無論是 什麼形 式的統 
計 ， 都可 能出錯 ； 這可能 是意外 ， 也可能 是故意 ， 構成統 計陷阱 。 

有三種 謊言 ： 謊言 ' 該 死的謊 言和統 計數字 。 —Benjamin Disraeli 

總 有一天 ， 有 教養的 公民能 讀能寫 ， 也 要有統 計思維 。 ™H. G.Wells 

我 們不知 道的那 些事情 不會讓 我們陷 入困境 ， 
而是 我們知 道但並 非如此 的事情 ° ^ArtemusWard 

數字 與統計 



「多 數人 對於數 字具有 先天的 畏懼感 ， 是 有演化 的根源 ； 因為人 類存活 
在地 球有幾 十萬年 ， 大多數 時候是 幾十人 、 最多百 來人的 小族群 過著狩 
獵採集 的生活 ， 全部家 當兩隻 手就可 拿著走 ， 因此 不需要 用上什 麼數字 ， 
對成千 上萬的 大數字 更是沒 有概念 。 只有 在近一 萬年來 ， 人類採 行農業 
生活後 ， 人 類社會 的規模 與財富 不斷累 積成長 ， 才 開始出 現對數 字的需 
求 ， 也 才有天 賦異稟 之士發 展出各 式各樣 的數學 。 

雖然多 數人對 數字可 能無感 ， 但冰 冷的數 字還是 要比感 性的言 語可靠 。 
統 計是整 理大數 字的科 學方法 ， 如果是 因為不 懂統計 ， 或吃過 統計的 
虧 ， 就把統 計與謊 言並列 ， 可 說是因 噎廢食 ， 也 算另一 種人的 偏見吧 。 」 

― 〈 潘震澤 ： 人 類天生 的缺陷 ： 數字盲 〉 

引文說 「把 統計 與謊言 並列」 是 「另一 種人的 偏見」 。相信 沒有人 會把全 部統計 
看作 為謊言 ， 但統計 有誤區 ， 也 不能否 認有人 利用統 計說謊 。 統 計有什 麼誤區 ？ 
如何 說謊？ 這是 本書的 主題。 



Darrell Huff, 1954 J 
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原文 ： How to Lie with Statistics by Darrell Huff, 1954 。 譯本略 有刪節 ' 減 掉一些 不懂歷 史背景 很難明 白的過 時例子 。 



序 t 



神 聖古老 的英國 度量衡 制度快 要取消 ， 英寸和 英尺的 時代快 要結束 ； 蓋洛 普民意 

以一 貫方式 測試人 們對取 而代之 的公制 的認識 ， 發 現大學 程度的 男女有 33% 從 
未聽 過公制 。 

然 後一份 周刊的 讀者調 查宣布 讀者有 98% 知 道公制 。 對此 ， 報刊 吹噓它 的讀者 

群比 一般人 「更 懂行」 。 

兩 項民調 如何能 夠有這 麼明顯 的差異 ？ 

蓋洛普 調查員 精心挑 選了公 眾的樣 本並約 見會談 。 這 家報刊 兒戲和 經濟地 依靠讀 
者填 寫和郵 寄問券 。 

由此不 難猜測 大部分 不知道 公制的 讀者根 本沒有 興趣填 報和郵 寄問券 ， 自 動不參 
加調查 。 用 統計術 語來說 ， 這 樣的自 我選擇 只會產 生具偏 見或不 具代表 性的樣 
本 ， 多年 來導致 許多許 多誤導 性結論 。 

多年前 的冬季 ， 十 多位獨 立調查 員報告 抗組織 胺藥片 的數量 ， 各 人都發 現藥片 治 
愈大 多數感 冒病例 。 

於是廣 告和醫 療產品 的熱潮 開始炒 得火熱 。 這是基 於人們 對靈丹 妙藥的 永恆希 
望 ， 也 沒有超 越統計 數據去 看看長 久以來 我們已 經知道 的事實 。 幽 默作家 Henry 
G. Felsen 不是醫 學權威 ， 很久之 前已指 出適當 的治療 可以在 七天治 愈感冒 ： 只要 
多休息 ， 置 諸不理 ， 一 星期就 會好轉 。 

因此 ， 你讀 到的和 聽到的 平均值 、 關係 、 趨勢和 圖表並 不是表 面的真 實無誤 ， 背 
後可能 有更多 或更少 的訊息 。 

在追求 事實的 文化中 ， 統 計的祕 密語言 是如此 吸引人 ， 實 則是用 來炒作 ， 誇大 ， 
混淆和 簡單化 。 在 報告社 會和經 濟趨勢 、 企業經 營狀況 、「民 意」 調查和 人口普 
查的大 量數據 ， 統 計方法 和統計 術語是 必要的 ， 但報 告者用 辭必須 誠實和 易於了 
解 ， 讀 者也知 道用辭 的意思 ， 才不會 陷於語 義的無 稽之談 。 

科 普文章 濫用統 計數字 ， 幾乎排 擠了在 半明不 亮實驗 室日以 繼夜辛 勤研究 的白袍 
英雄 。 統 計資料 粉飾許 多重要 的事實 ， 猶如撲 粉化妝 ， 上 油塗漆 。 精心包 裝的統 



第一章 有內 置偏差 的樣本 



桶 内有紅 豆白豆 ， 有一 種辦法 肯定各 有多少 ： 倒出 來點數 。 

有一 個更簡 單的辦 法算出 有多少 紅白豆 。 假設 桶内的 紅豆白 豆是相 同比例 ， 拿出 
一 把豆子 ， 只計數 這一把 。 就大 多數目 的而言 ， 如樣 本足夠 大和選 擇正確 ， 這足 
以代 表整體 。 但如 兩方面 有偏差 ， 其 準確度 可能遠 遠及不 上聰明 的猜測 ， 只不過 
是 所謂科 學精確 的虛言 。 樣 本因為 選擇的 方法有 失偏頗 ， 或過小 ， 或兩者 兼而有 
之 ， 會導 致謊言 ， 也就是 我們讀 到或以 為我們 知道那 些很多 結論背 後的可 悲事實 。 

樣本 如何出 現偏差 ？ 請看一 個極端 的例子 。 假設 要發問 卷調查 ， 其 中包括 以下的 
問題 ： 「你是 否喜歡 回答問 卷調查 ？ 」 之後收 回的問 卷極有 可能得 出這樣 的結論 ： 
「典型 的樣本 人口絕 大多數 喜歡回 答問卷 調查」 ， 其準確 度可計 算至幾 個小數 
點。 這 是什麼 一回事 ？ 當然是 因為回 收的問 卷已排 除了大 多數可 能回答 「不 喜歡」 
的問卷 ， 調查 問卷已 掉在廢 紙簍。 即使原 始樣本 中十有 八九是 「不 喜歡」 那幫人 ， 
這些 「錯 誤」 己排除 在外。 

現實生 活中是 否有這 樣的有 偏樣本 ？ 當然有 。 

不久前 ， 報刊和 新聞雜 誌報導 在過去 十年有 約四百 萬美國 耶教舊 教信徒 改信新 

教 。 消息 來源是 跨宗派 《耶 教導報 Christian Herald} 編輯 Daniel A. Poling 牧師的 

調查 。 《時 代》 周 刊總結 這故事 ： 

《導 報》 的數字 來自美 國新教 牧師， 2,219 位牧 師填報 (發 出問卷 25,000 份）， 
呈 報共有 51,361 前舊教 教徒在 過去十 年加入 新教。 Poling 依樣 本估算 在十年 
有 4,144,366 名舊教 教徒改 信新教 。 Will Oursler 主 教寫道 ： 「 即使估 算有出 

入 ， 全國數 字不會 少於二 ， 三百萬 ， 極有可 能接近 五百萬 。 」 

雖然 《時 代》 有報 導調查 中超過 90% 牧師 沒有填 報問卷 ， 但錯過 了指出 這事實 
的 重要性 ， 依然精 神可嘉 。 要徹 底摧毀 這調查 ， 唯一 要注意 的合理 可能性 是大多 
數牧師 扔掉問 卷是因 為沒有 改信教 徒的數 字可以 呈報。 

利用這 假設和 Poling 採 用的相 同數字 （ 181,000 名 牧師） ， 可以另 行推算 。 他的調 
査涵蓋 181,000 牧師的 25,000 人 ， 呈報 51,361 人改 信新教 ； 如 調查涵 蓋全部 
181,000 牧 師會得 出有約 370,000 人改 信新教 。 



這 樣的粗 糙方法 得出非 常可疑 的數字 ， 但至 少是一 如前一 數字值 得信任 ； 那個全 

國數字 是修正 數字的 十一倍 ， 因 此更引 人注目 。 至於 Oursler 主教 對誤差 的自信 ， 

如果 他發現 了一種 方法來 糾正未 知大小 的誤差 ， 將 會造福 統計界 。 

在這 背景下 ， 多年 前有另 一則新 聞報導 ， 當 時的幣 值較高 ： 耶魯大 學學生 平均年 
收入有 $25,111 。 很棒 ！ 

且慢 。 這令人 印象深 刻的數 字是什 麼意思 ？ 這是否 表明如 果子女 進讀耶 魯或牛 
津 ， 劍橋 ， 你和 他不用 年老時 上班？ 

第一眼 看過去 ， 這數 字有兩 個疑點 ： 令 人驚訝 的精確 ， 也不 大可能 這樣的 令人稱 

羨 。 

只有極 小可能 性可以 精確得 知任何 散漫群 體以往 任何時 候的平 均收入 ， 更 不要說 
精確至 $111 。 除非收 入全來 自薪金 ， 很 少人能 如此精 確知道 自己的 年收入 。 有這 
樣收入 的人往 往會分 散投資 。 

此外 ， 這個 可愛的 平均數 無疑是 源於耶 魯畢業 生的自 報收入 。 即 使耶魯 大學在 
1924 年校 風純樸 ， 但不能 保證四 分之一 世紀後 這些畢 業生都 如實自 報收入 。 被 
問 及他們 的收入 ， 有 些人因 虛榮心 或樂觀 誇大了 。 其他 人少報 ， 尤 其是擔 心納稅 
申報 ， 不想在 任何其 他文件 留下自 相矛盾 的資料 。 誰 知道稅 務局會 否看到 ？ 吹噓 
和低 估這兩 種傾向 可能相 互抵消 ， 但其 實是不 可能的 。 其一 傾向可 能遠遠 強於另 
一 ， 但不 知道是 哪一個 。 

先 說一下 ： 常識告 訴我們 這數字 幾乎不 是真相 。 這資訊 表示一 些人的 「平均 收入」 
是 $25,111 ， 而這些 人的實 際平均 收入可 能較接 近一半 。 現 在看看 資訊可 能來源 
的最 大誤差 。 

常 識告訴 我們不 可能在 二十五 年後與 當年的 全部畢 業生保 持聯絡 。 有人 己往生 ， 
有人地 址不詳 。 

那些 有通訊 地址的 ， 很多人 不會回 答問卷 ， 特別 關乎相 當個人 的資料 。 對 於某些 
類 型的郵 件問卷 ， 5-10% 的反應 已是相 當高的 。 這一 個調查 的回報 率應該 比這更 
好 ， 但肯 定不是 100% 。 

因此 ， 這收 入數字 源自有 已知地 址而又 樂意填 報個人 收入的 畢業生 。 這是 否具代 
表性 的樣本 ？ 也 就是說 ， 是 否可以 假設這 群組的 收入是 相等於 沒有參 加調查 （沒 
有地址 或不願 回報） 的另 一群畢 業生？ 



在耶 魯名錄 ， 那些 畢業生 「地址 不詳」 ？是 否那些 賺大錢 的華爾 街巨子 ， 公司董 
事 ， 製 造業及 公用事 業主管 ？ 不 ， 富人的 通訊地 址不難 查得到 。 即 使他們 忽略了 
聯 繫校友 辦公室 ， 從名 人錄和 其他參 考刊物 找出他 們的通 訊地址 應是輕 而易舉 。 
二十 五年後 失聯的 畢業生 ， 按常 理猜測 應是那 些畢業 後事業 不順的 畢業生 ： 文 
員， 技工， 流浪漢 ， 失業 酗酒漢 ， 僅堪 糊口的 作家和 藝術家 。 可能 幾個人 的收入 

總和才 可攀上 $ 25,111 的收 入水平 。 他們不 那麼經 常參加 舊生聯 誼活動 ， 可能有 

些 人甚至 不能負 擔旅費 。 

誰 會把問 卷攆到 垃圾桶 ？ 不 能肯定 ， 但 公平的 猜測至 少是很 多人沒 有掙多 多的錢 
可以自 我吹噓 。 這 有點像 新員工 發現第 一份工 資單夾 著紙條 ， 建議 他保密 工資數 
額 ， 不 與同事 交換機 密資料 。 這傢 伙會告 訴老闆 ： 「別 擔心 ， 我和 你一樣 為此感 
到羞恥 。 」 

看來 很清楚 樣本省 略了最 有可能 壓低平 均水平 的兩組 。 那個 $25,111 數字 開始為 

自 己解釋 。 這 只適用 於有己 知地址 ， 又願 意公開 本人收 入的特 殊群體 。 這 還要假 
設 他們是 說真話 的君子 。 

不要 輕易作 出這樣 的假設 。 抽 樣調査 的一個 品種即 是所謂 「市場 調研」 ， 其經驗 
表 明根本 不能作 出假設 。 有 一項市 場調查 的關鍵 問題是 ： 你 家看什 麼雜誌 ？ 結果 
列表和 分析顯 示很多 人喜愛 高端的 Harper's ， 這 雖然不 算是曲 高和寡 ， 但 至少算 
得是 中上階 層口味 ； 並 沒有很 多人自 認是低 俗雜誌 ThveSfoo/ 的讀者 。然而 ，出 
版 商的數 字很清 楚表明 True Story 的發行 量有幾 百萬份 ， 而 Harper's 只有 幾十萬 。 
調査 的設計 人員自 我解困 ： 也許我 們問錯 了對象 。 但 事實不 是這樣 。 調查 在全國 
各地街 上訪問 。 那麼唯 一合理 的結論 是很多 受訪者 回答這 些問題 時沒有 說實話 。 
調查 只是發 現了人 們在裝 腔作勢 ， 裝 模作樣 。 

最 終發現 ， 如 果想知 道某些 人看什 麼雜誌 ， 查詢是 沒用的 。 更好的 辦法是 從他們 
家 裡買入 舊雜誌 ， 這中自 有資訊 。 

只 需數算 《耶魯 評論》 和 《愛情 周刊》 的冊數 。 即使 這樣也 不能確 實知道 人們在 
看什麼 ， 只 是知道 他們接 觸什麼 。 

同樣 ， 讀到 有報導 一般人 （ 最近聽 的很多 ， 大部份 不可信 ） 刷牙 每天一 到兩次 （ 我 
隨 意取一 個數字 ） ， 這有什 麼問題 ？ 誰能 知道這 些事情 ？ 女生 看了無 數廣告 ， 印 
象中以 為不刷 牙是社 會罪行 ， 她會否 向陌生 人承認 她不經 常刷牙 ？ 這樣的 統計只 
意味 著人們 對刷牙 的說法 ， 但 沒有弄 清楚人 們刷牙 的頻率 。 



諺 語有云 ： 河水 向下流 ， 不高 於源頭 。 嗯 ， 這 似乎是 可能的 ， 如 果有泵 站幫忙 。 
同樣真 實的是 抽樣調 查的結 果不會 優於樣 本本身 。 數據 經通過 層層統 計處理 ， 過 
濾為 小數點 平均值 ， 調 查結果 開始蒙 上可信 的光環 ， 但仔細 看看採 樣就可 以否定 
這假像 。 

可信的 採樣報 告必須 採用具 代表性 的樣本 ， 即是已 去除每 一偏見 的源頭 。 上文的 
耶 魯數字 頓見毫 無價值 。 許多報 刊和雜 誌報導 犯下同 樣錯誤 ， 沒有什 麼意義 。 

有一次 ， 精神科 醫生報 告謂幾 乎每個 人都是 神經質 。 這樣的 說法除 了破壞 「神經 
質」 一 詞的任 何意義 ， 倒不如 看看這 位醫生 的樣本 ， 也就是 說這位 精神科 醫生一 
直在 觀察什 麼人？ 原來 ， 他是 從觀察 他的病 人得出 這啟發 性結論 ； 這個 「樣 本」 
根 本不能 作為總 體人口 的樣本 。 正常 人不會 看心理 醫生的 。 

閲讀 不要囫 圖吞棗 ， 可以 避免學 習了一 大堆表 裡不一 的東西 。 

值得銘 記無論 是有形 或無形 來源的 偏差都 會破壞 樣本的 可靠性 。 也 就是說 ， 即使 
不能找 到可證 實偏見 的來源 ， 只要有 偏差的 可能性 ， 對結果 也應保 持一定 程度的 

懷疑。 

一項 例證是 1936 年 《文學 文摘》 月 刊的著 名慘敗 。 月刊的 一千萬 名電話 用戶和 
月刊 訂戶調 査曾準 確預測 1932 年的總 統大選 。 1936 年 ， 月 刊彙集 同一名 單的反 
饋 ， 編輯部 放心預 測羅斯 福只有 161 選 舉人票 ， 對手 Landon 得票 370 。 這樣本 
名單久 經測試 ， 怎會 有偏差 ？ 當然 有偏差 ； 無數高 校論文 和其他 事後研 究發現 ： 
在 1936 年 有財力 安裝電 話和訂 閱雜誌 的人不 是全體 選民的 橫截面 。 這個 富裕組 
群 是特殊 的組群 ； 這 是一個 有偏差 的樣本 ， 因 為大多 數樣本 是共和 黨選民 。 這樣 
本選擇 Landon ， 但 全體選 民卻不 以為然 。 

基本樣 本被稱 為隨機 (random) ， 在 母體群 中被選 中純粹 是偶然 ； 統 計人員 指全體 

為 「母 體群」 ， 樣 本是其 中部份 ： 索引 卡每十 個名字 選一個 ， 每批 紙張取 五十張 ， 
在鬧 市每二 十名行 人採訪 一位。 （但 請記住 ， 這不是 這個國 家或城 市人口 的樣本 ， 
只是 當時鬧 市區域 的樣本 。 一項 民意調 查的訪 問員聲 稱可在 火車站 「找到 各種人 
等 。 」 必須 指出她 的誤區 ： 例如 ， 帶 著小童 的母親 可能比 例不足 。 ） 

隨機 樣本的 測試是 這樣的 ： 是 否每一 個名字 或事物 在整體 中有平 等機會 成為樣 
本？ 

純隨 機抽樣 4 ， 是唯一 可以利 用統計 理論檢 査而又 令人有 全面信 心的統 計方法 ， 



purely random sample 



但 其多種 用途的 成本昂 貴和執 行困難 ， 令人望 而卻步 。 民意 調查和 市場研 究這些 
普 遍領域 幾乎都 採用更 經濟的 替代品 ： 分層隨 機抽樣 5 。 

要 得出分 層抽樣 ， 先把 母總群 按已知 盛行率 6 比例分 為組群 7 。 麻煩從 此開始 ： 所 

知的 比例訊 息可能 不正確 。 調 查員按 指示訪 問多少 名黑人 （ 以收入 階層細 分百分 
比） ， 多 少名農 民等等 ； 這些組 群必須 均分為 四十周 歲之上 和之下 。 

聽 起來有 層有次 ， 但實 際情況 是怎樣 ？ 大部分 時間調 査員不 會弄錯 受訪對 象是黑 
人或 白人。 收入 方面會 多犯錯 。 如何界 定農民 ： 在農 場兼職 又在城 市上班 應如何 
分類 ？ 即 使年齡 也可能 帶來一 些問題 ， 避重就 輕的辦 法是只 選擇明 顯低於 或超過 
四十 周歲的 受訪者 。 在這種 情況下 ， 樣本 有偏差 ， 沒 有包括 三十多 歲和四 十多歲 
的 年齡組 。 你不 能全贏 。 

考慮以 上各點 ， 應 如何在 分層內 得出隨 機樣本 ？ 最明 顯的先 找出全 體人口 的姓名 
列表 ， 從中隨 機選擇 ； 但成本 太昂貴 。 所以訪 問員走 到街上 （偏誤 是忽略 了留在 
家中 的人們 ） ， 或是 在白天 挨家挨 戶訪問 （偏誤 是忽略 了上班 族）， 或換到 晚上訪 
問 （忽 略了電 影迷和 夜遊人 ）。 

意 見調查 的操作 ， 歸結到 底是對 有偏見 來源的 持久戰 ， 所有 著名的 民調機 構時時 

亥咳! 1 都 在作戰 。 閱 讀調查 報告時 ， 必 須記住 這是必 然敗北 的戰鬥 ， 從來沒 有贏過 。 
「英 國人有 67% 反 對…」 或其 他類似 的結果 ， 先要 問問這 67% 是什麼 英國人 。 

美 國著名 的人類 性學研 究者金 賽博士 8 與他人 合著的 《金 賽報告 9 》 ： 《男 性性 行為》 
( I 948 年） 及 《女 性性 行為》 （ I 953 年） 。 《報 告》 無疑是 劃時代 的研究 ， 但樣本 
遠遠不 是隨機 ， 令 人不安 。 樣本名 單有極 大偏差 ： 女性 受訪者 75% 有大專 以上學 
歷 ， 男 性受訪 者有頗 大比例 是囚犯 (25%) 或男妓 (5%) 1D 。更嚴 重的誤 區是樣 本大幅 
度傾向 有性暴 露狂的 受訪者 ； 樂 意向訪 問員訴 說性歷 史的人 ， 其經 歷大大 有異於 
對 訪問員 說不的 沉默寡 言群體 。 

布魯克 林學院 A. H. Maslow 在 金賽之 前有一 項研究 ， 參與的 女學生 許多後 來也志 
願參 與金賽 的研究 ； Maslow 發 現這些 女生普 遍是較 為性成 熟和獨 立特行 。 這證 

實了人 們對金 賽研究 的質疑 。 

閱讀 《金賽 報告》 或任何 有關性 行為的 較近期 研究時 ， 要 懂得適 可而止 ： 即是不 



stratified random sampling 
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group 

金 賽博士 Alfred Charles Kinsey ' 1894-1956 
Kinsey Reports 

譯文略 有補充 ， 參考維 基百科 。 



要過 份閱讀 。 任何 基於採 樣的研 究都突 顯這樣 的誤區 ， 尤其 是大型 調查的 主要報 
告濃縮 為摘要 形式更 可能變 得如此 。 

首先 ， 像 《金賽 報告》 這 樣的研 究至少 涉及三 個層次 的抽樣 。 上文 已指出 母體群 
(第一 層次） 的樣 本並不 是隨機 ， 因此 可能不 特別代 表任何 母體群 。 同樣 重要的 
是 要記住 任何問 卷可能 只是許 多可能 問題的 其中一 個樣本 （第二 層次） 。 受訪者 
的答 案只不 過是回 應那問 題的個 人態度 和經驗 的樣本 （第三 層次） 。 

類似 金賽的 性研究 和其他 調査都 發現訪 問員的 身份會 影響調 查結果 。 在 二戰期 
間 ， 美 國全國 民意研 究中心 派出兩 位員工 訪問南 方城市 的五百 名黑人 。 一 位調査 
員是 白人， 另 一位是 黑人。 

訪問員 提出三 個問題 。 其一是 「如果 日本征 服美國 ， 黑人 會得到 更好或 更壞待 

遇？」 黑人 訪問員 回報受 訪者有 9% 回答 「更 好」。 白 人訪問 員得到 同樣的 回應只 
有 2% 。 黑人 訪問員 回報受 訪者有 25% 回答 「更 壞」。 白人訪 問員得 到同樣 的回應 
卻有 45% 。 第二條 問題以 「納粹 德國」 取代 「日 本」， 結果也 是類似 。 

第 三條問 題探討 可能是 基於前 兩條問 題顯露 的感情 。 「專心 擊敗軸 心國或 致力讓 
民主更 好在美 國發展 ； 你認為 那一項 更重要 ？ 」 黑 人訪問 員回報 39% 選答 「專心 
擊敗軸 心國」 ， 而白 人訪問 員回報 62% 。 

偏誤 是因為 許多未 知因素 。 最有 效的因 素可能 是人們 有給出 令對方 滿意答 案的傾 
向 ， 因此 閱讀調 査結果 時要自 我提醒 。 回答在 戰亂時 對忠於 國家的 問題時 ， 南方 
黑人會 告知白 人訪問 員動聽 的答案 ， 而不是 本人實 際相信 的答案 ， 這是 不足為 
奇 。 也有 可能是 不同訪 問員選 擇不同 類型的 對象接 受訪問 。 

在任何 情況下 ， 結果是 很明顯 是一面 倒偏誤 ， 毫 無價值 。 各 位可以 自行判 斷有多 
少調 查的結 論是一 樣偏頗 ， 毫 無價值 ， 而且沒 有測試 揭示這 些偏誤 。 

如 果你懷 疑一般 調查偏 向於特 定方向 ， 一如 《文學 文摘》 的錯誤 ， 這可視 之為相 
對證據 ： 受訪者 比代表 母體群 平均組 群偏向 更有錢 ， 受較 多教育 ， 有較多 資訊和 
較高 警覺性 ， 更美好 的外觀 ， 更常 規的行 為以及 較穩定 的習慣 。 

很 容易看 到如何 產生這 此偏誤 。 假 設訪問 員被分 派到某 街角完 成面試 。 眼 前兩位 
仁兄似 乎都適 合要求 的類別 ： 第一位 是四十 處的城 市黑人 ， 不 修篇幅 ； 另 一位穿 
著乾淨 工作服 ， 體 面整潔 。 為 了盡快 完成訪 問任務 ， 訪問員 更有可 能向後 者打招 
呼 。 全 國各地 的訪問 員都做 出類似 的決定 。 



自 由 派或左 翼圈子 對民調 最反感 ， 普遍 認為民 調一般 被操控 。 這種 觀點的 背後事 
實是 民調結 果往往 不符合 那些思 想不保 守人士 的意見 和願望 。 他們指 出 民 意調查 
似 乎選上 共和黨 ， 即使此 後選民 不是這 樣投票 。 

事實上 ， 從上 文所見 ， 民調不 是必然 被操縱 ， 刻意 扭曲結 果以製 造假象 。 樣本向 
這 一致方 向傾斜 已是自 動扭曲 。 

補 充材料 

選擇 母體群 和抽樣 的誤區 

書面作 業選用 那些現 有數據 ？ 調査選 擇那些 母體群 ？ 全都 影響統 計數據 。 
即 使母體 群的界 定符合 「涵蓋 全體」 的意思 ， 如 何從中 抽樣？ 11 

• 簡單隨 機抽樣 simple random sampling ' 也 叫純隨 機抽樣 。 從 母體群 N 個 

單 位中隨 機抽取 n 個 單位作 為樣本 ， 每一單 位有相 同機率 被抽中 為樣本 ， 
即 是每個 樣本單 位被抽 中的機 率相等 ， 每 個樣本 單位完 全獨立 ， 彼 此沒有 
一 定的關 聯性和 排斥性 。 簡單隨 機抽樣 是其它 各種抽 樣形式 的基礎 ， 通常 
只是在 母體群 單位之 間差異 程度較 小和數 目 較少時 才採用 。 
• 系 統抽樣 systematic sampling ， 也稱等 距抽樣 。 將母 體群的 所有單 位按一 
定順 序排列 ， 在規 定範圍 內隨機 抽取一 個單位 作為初 始單位 ， 然後 按事先 
規定規 則確定 其他樣 本單位 。 先 從數字 1 到 k 之 間隨機 抽取一 個數字 r 作 
為初 始單位 ， 以後 依次取 r+k 、 r + 2k ...... 等單位 。 這種 方法操 作簡便 ， 可提 

高估計 的精度 。 

• 分 層抽樣 stratified sampling 。 將 抽樣單 位按某 種特徵 或規則 劃分為 不同分 

層 ， 然 後從不 同分層 中獨立 、 隨機抽 取樣本 。 從而保 證樣本 的結構 與母體 
群 結構比 較相近 ， 從而提 高估計 的精度 。 
• 整 群抽樣 cluster sampling 。 將母 體群的 若干個 單位合 併為組 ， 形 成抽樣 

框 ， 抽 樣時直 接抽取 ， 然後全 部調查 中選組 群的所 有單位 。 抽樣時 只需抽 
中 抽樣框 ， 可簡化 工作量 ， 缺 點是估 計的精 度較差 。 

學術 調查較 多說明 採用那 種方法 ， 但一般 調查極 少說明 。 以香 港為例 ， 有 化妝品 
/牙膏 等等廣 告標榜 「90% (或高 比例） 女士/ 牙醫選 用…」 ； 為 適應法 例要求 ， 
廣 告以極 小白字 標示數 據來自 什麼什 麼調查 。 仔 細一看 ， 這 些調查 往往來 自内部 
或母公 司調査 。 這 些數據 應該是 真實的 ， 但這些 「內 部」 調 査是否 隨機？ 是否涵 
蓋 適當的 母體群 ？ 牙醫母 體群是 否包含 全部註 冊牙醫 ， 或是 參加廣 告方主 辦免費 



這段 落取自 〈抽 樣〉 《維基 百科》 ， 略 有改寫 。 



研 討會的 參加者 ？ 「女 士」 是 否局限 於在該 品牌化 妝櫃台 瀏覽甚 至購物 的女士 ？ 

> 參 考閱讀 ： 抽樣與 代表性 
輕率概 化和過 度類化 

統計的 的特定 總體不 能代表 母體群 ， 即是輕 率概化 的謬誤 ， 例如調 查只限 於某政 
黨黨員 和同路 人而把 結論概 化為全 民意見 。 

現實生 活中的 調查往 往以電 話進行 ， 常有過 度類化 的謬誤 。 如調查 人員只 致電手 
機 （流動 電話） ， 而手 機使用 者以年 青人佔 大多數 ， 這忽 略了沒 有手機 ， 只有家 
用電話 的家庭 主婦和 老年人 。 這不是 全民調 査的正 確取樣 。 

抽 樣調査 

常 見的報 導屢屢 提到是 次調查 訪問了 多少人 。 大城市 人口動 輒千萬 ， 大國 人口以 
億計 ， 究竟調 査樣本 應有多 少才有 代表性 ？ 不 懂統計 學的人 們少不 免懷疑 調査數 
千 人是否 取得數 百萬人 的意見 。 完美公 正的抽 樣和可 信答案 的調査 ， 在數 學上有 
誤 差範圍 ， 取決 於調査 的人數 。 

先要了 解取樣 調査的 兩個重 要術語 ： 置 信區間 "(confidence interval) 和置 信水平 
"(confidence level) 。 置信區 間也稱 為誤差 (margin of error) ， 即是調 査報導 時常提 

到的 ±X% 。 抽樣 誤差本 質上不 是錯誤 (mistake) ， 最完 善的抽 樣統計 程序和 方法都 

無法 避免抽 樣誤差 （除非 剛巧每 一個樣 本都具 有和總 體相同 的特徵 ， 那 另當別 

pffl ) 。 

在既 定的置 信水平 ， 影響其 置信區 間有三 個因素 ： 樣 本大小 (sample size) 、 百分 
比 (percentage) 和母體 群規模 (population size) ° 

很明顯 較大的 樣本數 量更能 確保如 實反映 母體群 的答案 ； 也 很明顯 最大範 圍的樣 
本就 是母體 群全部 ， 但 這是不 實際的 ， 否則就 無需抽 樣調査 這回事 。 但在 既定的 
置 信水平 ， 樣 本越大 ， 置信區 間越少 ； 但這關 係不是 線性的 ， 不是 說倍增 樣本大 
小會導 致誤差 率減半 。 

調 査的準 確度也 取決於 樣本選 取一個 特定的 答案的 百分比 。 如樣本 99% 說 「 是」， 
1% 說 「 否」， 無論樣 本大小 ， 錯 誤的機 會是微 乎其微 。 然而 ， 如答 案的百 分比是 



亦 有譯為 「信 賴區 間」。 

亦 有譯為 「信賴 /信心 水平/ 水 準」。 



51% 對 49% ， 出 錯的可 能性要 大得多 。 

樣 本可能 代表己 知的國 家或城 市人口 ， 或是 不確切 知道的 準車主 數目。 機 率數學 
證明 如樣本 是母體 群的百 分之幾 ， 母體 群的規 模是無 關緊要 ， 除非 母體群 的規模 
偏小 或是有 既定特 點的已 知群體 （例如 某協會 的成員 ） 。 

取樣 的黃金 規律是 「 隨機 」 ， 真正的 「 隨機 」 。 調查出 錯往往 是因為 取樣不 是隨機 。 
以大家 熟悉的 蓋洛普 (Gallup) 調 查為例 ， 看看 「美 國全 國民意 調查」 是怎 麼抽樣 



無論是 一次性 或追蹤 性調査 ， 蓋 洛普的 取樣是 一千人 ， 置信區 間為土 
4% ， 置信 水平為 95% 。 即使加 大樣本 ， 誤差不 會有很 大差異 。 

在收集 數據後 ， 蓋洛 普依據 美國人 口調查 局的人 口特徵 （性別 、 族裔 、 
年齡 、 學歷和 地區） 為每 位受訪 者加權 。 

例如 ， 調査一 千名國 民對總 統的支 持率為 50% ， 誤差為 ±4% ， 即 是支持 
率是在 46% 至 54% 之間 。 如樣本 擴大至 二千人 。 誤差 可降至 ±2% ， 但成 

本倍增 。 

在決 定樣本 多少時 ， 調查 機構必 然要考 慮成本 。 最 準確的 民意調 查要涵 
蓋全 體國民 ， 但 這是不 切實際 。 

「置信 水平為 95%」 的意思 是如蓋 洛普進 行一百 次同樣 的調查 ， 有九 
十 五次的 結果大 致相同 ， 只 有五次 不是在 「46% 至 54%」 的範圍 。 14 



http://www.gallup.com/poll/10187^/how-does-gallup-polling-worl<.aspx 
http:y7www.gallup.com/poll/File/125927/How%20Are%20Polls%20Conducted%20FINAL.pdf 



Sample Size Calculator 是 Creative Research Systems 的! 罔上公 共)^ 務 ' 用來 決定需 

要多少 樣本以 反映目 標母體 群的精 確結果 。 只要 點選置 信水平 （95% 或 99%) ， 
輸人置 信間距 （誤差 ） 和母體 群人數 ， 就可 以算出 所需樣 本大小 。 15 。 



網頁 計算器 要求輸 入以下 的選擇 ， 如母體 群的規 模龐大 或未知 ， 可 以留空 。 



決定樣 本大小 Determine Sample Size 

置信 水平 Confidence Level: ( )95% ( )99% 
置信間 距 Confidence Interval: 
母體群 Population: 

戶斤 需樣本 Sample size needed: 



計算置 信區間 Find Confidence Interval 

置信 水平 Confidence Level: ( )95% ( )99% 
樣 本規模 Sample Size: 
母體群 Population: 
百分比 Percentage: 

置信 區間 Confidence Interval: 



不恰 當的調 査問題 

問卷 和電話 調查都 是由訪 問者提 出問題 ， 遣詞用 字能弓 I 導受 訪者給 出有傾 向性的 
答案 。 如 二戰期 間的民 意調查 問題為 ： 

• 德國 已進佔 法國。 美 國應否 參戰？ 

• 日 本 已偷襲 珍珠港 。 美國應 否參戰 ？ 
其中 的預設 立場顯 而易見 。 

另一陷 阱是在 誘導性 提問加 入導向 「理想 答案」 的資料 。 例如 ： 
• 中產 家庭稅 務是多 年新高 ， 你 是否支 持扣減 所得稅 ？ 
• 國家提 出龐大 量赤字 預算以 應付迫 切需求 ， 你 是否支 持扣減 所得稅 ？ 



http://www.survevsvstem.eom/sscalc.htm#one 



法律 與統計 
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一 宗謀殺 官司突 顯了嚴 重的統 計問答 。 雖然 疑犯否 
認 他在犯 罪現場 ， 但 正面臨 控方提 出的指 紋證據 。 
指 紋專家 在庭上 被控方 盤問： 「被 告人 的指紋 和其他 
人的指 紋相同 的機率 是多少 ？ 」 專 家作答 ： 「數 十億 
份之一 。 」 辯方律 師盤問 ： 「在 犯罪現 場得到 的指紋 
被錯 誤識別 為某人 的機率 是多少 ？」 專家： 「哦， 大 



指 紋證據 是事實 ， 但識 別指紋 是判斷 



是一 門科學 ， 並 且由機 率支配 
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〈 視頻〉 Peter Donnelly: How juries are fooled by statistics 統計如 何迷惑 陪審團 （ 中 

文 字幕） 。 統計 數字如 何錯判 「殺 嬰案」 。 



資 料來源 ： http://www.nytimes.com/501^D^2^opinion/sunday/when- numbers-mislead.html?— r=0 



第二章 精心 挑選的 平均值 



讀 者諸君 不是勢 利小人 ， 我當然 不是地 產代理 。 姑且 假設你 是勢利 暴富戶 ， 而我 
是地 產代理 。 你 打算在 我熟悉 的小區 買房子 。 我打 量一下 ， 小心翼 翼告訴 你這小 
區的 業主住 客平均 收入每 年約一 萬英鎊 。 也許這 引起你 的興趣 ； 無 論如何 ， 你決 
定 買房子 ， 也記住 這年收 入數目 。 勢利 暴富的 你在告 訴你的 新地址 時也不 經意拋 
出 這數字 。 

一 年多後 ， 我們又 見面了 。 我 是當區 地方稅 繳納人 委員會 的成員 ， 要求小 區的業 
主 住客簽 署請願 書呼籲 不要增 加地方 稅或調 低物業 估值或 公交票 價減價 ， 理由是 

這 超出小 區居民 的負擔 ， 畢 竟我們 的平均 收入每 年只有 £2000 。 

也許 你會附 和我和 委員會 的呼籲 ； 你不 僅勢利 ， 也懂 得省錢 。 但你對 年收入 £2000 
的 說法無 法釋懷 ： 究 竟我是 現在或 是去年 說謊？ 

無 論怎樣 ， 你不能 怪責我 。 利用統 計數據 說謊就 是這樣 的美好 。 這 兩個數 字都是 
合法的 平均值 average ， 合 情合法 ， 都代 表同樣 的數據 ， 同樣 的居民 ， 同 樣的收 
入 。 都是 一樣的 。 很明顯 ， 至少其 中一個 是誤導 ， 等同不 折不扣 的睜眼 說瞎話 。 

我的 訣竅是 每次拿 出不同 類型的 平均值 ； 「平 均值」 有非 常鬆散 的定義 。 打算影 
響公眾 輿論或 出售廣 告空間 ， 這一招 很管用 ， 有 時是無 心之失 ， 但 往往是 故意而 
為 。 要 清楚明 白 「 平均值 」 ， 先 要知道 是那種 平均值 ： 平均數 mean ， 中位數 median 
或眾數 mode ° 

我 拋出一 萬英鎊 數目時 是想提 出一個 大數值 ： 平均數 是這社 區所有 家庭的 收入的 
算術 平均值 ： 所有家 戶的收 入總和 除以家 戶數目 。 中位數 是較小 的數字 ： 有一半 
家 庭的收 入多於 £2000 ， 有一 半少於 這數目 。 我也 可以拋 出眾數 ， 這是序 列數據 
最常 見到的 。 如這 社區有 最多家 庭的年 收入是 £3000 ， 每年 £3000 就 是眾數 。 

在這種 情況下 ， 沒有 解釋的 「平 均值」 是毫 無意義 ； 收 入數據 一般也 是這樣 。 有 
另外 因素亂 上添亂 ： 源自隨 著某些 種類訊 息的平 均值差 別不大 ， 一 般來說 是無需 
著意 區分。 

如 果有報 告謂某 原始部 落的男 性平均 身高只 有一米 ， 你會對 他們的 體型有 相當不 
錯 的見解 ， 無 需追問 這是否 平均數 ， 中位數 或眾數 ， 三 者的數 值都是 差不多 。 （ 當 
然 ， 如 果你打 算在非 洲出售 工作服 ， 就要有 比平均 值更多 的資訊 。 這是關 乎全距 



range 和偏差 deviation ' 下一 章詳談 。 ） 



處理 諸如許 多人性 特點的 數據時 ， 不 同的平 均值是 相當接 近所謂 「正 態分佈 17 」 ， 
以曲 線表示 其形狀 為鐘型 ； 平均數 ， 中 位數和 眾數都 在同一 點匯合 。 

因此 ， 如 描述人 的高度 ， 各種平 均值是 一樣好 ； 但 如要描 述某城 市居民 的收入 ， 
也許是 由些微 收入至 二萬英 鎊左右 ， 某地 可能有 幾個超 級大戶 。 超過 95% 的居民 
的年收 入是在 五千英 鎊之下 ， 曲 線向左 側傾斜 。 這不再 是對稱 的鐘型 ， 而 是被扭 
曲 ， 形狀 像小孩 的滑梯 ， 梯子 急劇上 升至一 個高峰 ， 滑 下部分 傾斜逐 漸下降 。 平 
均數 與中間 數有相 當距離 。 比對 一年的 「平 均數」 和 「中 位數」 ， 其差異 一目了 
然。 

回 到上文 物業經 紀就小 區居民 年收入 拋出兩 個相差 頗大的 平均值 ， 是因為 分佈明 
顯傾斜 。 如居 民大多 數是小 農戶或 打工一 族或是 年老退 休人士 ， 但 有三位 百萬富 
翁周 末業主 ， 居 民總收 入的算 術平均 數是極 大數值 。 幾乎每 個居民 都在平 均數之 
下 。 這 是現實 ， 但聽起 來像笑 話或比 喻而矣 。 

因此 ， 讀到 企業或 東主自 白他 員工的 平均工 資是什 麼什麼 ， 這數字 可能有 一些意 
思 ， 也可 能沒有 。 如 數字是 中間數 ， 意 思是高 於或低 於中間 數工資 的員工 各佔一 
半 。 如果是 平均數 （如沒 有說明 ， 一般 是這個 ） ， 所 謂平均 收入是 £25,000 其實沒 
有分 開東主 的得益 和和低 薪工人 的工資 。 平 均年薪 £3,800 可能 掩蓋工 人年薪 
£1,400 以及 東主以 高工資 形式拿 走大部 份利潤 。 

統 計的語 言偽術 可以把 壞事包 裝成為 較好的 外觀。 

三位合 夥人開 設一家 小型製 造企業 。 過去一 年生意 非常好 ， 支付了 九十名 員工的 
工資 （共 £99,000) 以 及每名 合夥人 工資各 £5,500 後 ， 餘下利 潤還有 £ 21,000 。 如 

何描述 這狀況 ？ 為便 於理解 ， 可 以利用 平均值 。 

既 然員工 都做同 樣工作 ， 薪酬 沒有太 大差別 ， 使用 平均數 或中位 數都是 差不多 ： 
員工平 均工資 £1,100 ， 合 夥人平 均工資 和利潤 £12,500 

這 看起來 很可怕 。 換一 種方式 。 三位合 夥人分 取利潤 £15,000 (餘下 £6,000) 。 這 
一回 以平均 數計算 員工和 合夥人 的工資 ： 平 均工資 £1,403 ， 合 夥人平 均利潤 
£2,000 。 

啊 ！ 這看起 來更好 ： 利 潤不足 6% 。 現在可 以發佈 ， 張貼或 在談判 中使用 這些數 



normal distribution 



據。 



這相當 粗糙的 例子極 度簡化 ， 但 比對以 會計之 名做出 的花招 ， 這不 算什麼 。 在層 
次結構 和複雜 的公司 ， 員 工從打 字員到 年收幾 百萬美 元獎金 的總裁 ， 這樣 的手法 
可以 掩蓋各 種各樣 的東西 。 

所以 ， 看到平 均工資 的數字 ， 首 先要問 ： 什麼 的平均 ？ 誰包 括在内 ？ 美國 鋼鐵公 

司 曾 表示其 員工的 平均週 薪在不 到十年 上升了 107% 。 是的 ， 他們沒 說錯- • 但 
只 要注意 到十年 前的數 字包括 眾多兼 職工人 ， 這數 字的意 義就大 打折扣 。 如某人 
去年 是半職 ， 今年 是全職 ， 他的 收入增 加一倍 ， 但工資 率其實 是一樣 。 

有 報導美 國家庭 的平均 收入是 $ 6,940 。 要 明白這 個數字 ， 先要知 道何謂 「家 庭」 
以及 是什麼 平均值 。 （ 以 及誰這 麼說的 ？ 他怎 麼知道 ？ 數字是 否準確 ？ ） 

數字 可能來 自人口 普査局 。 局方 的報告 全文說 明這是 中位數 ， 「家 庭」 指 「住在 
一起 兩個或 兩個以 上有親 屬關係 的人」 。 報 告還說 明數據 來自這 樣規模 的樣本 ， 
每二十 個樣本 有十九 個的估 計是在 ±71 美元 的範圍 。 

這機率 和誤差 率加起 來是相 當不錯 的估計 。 調 查局人 員有足 夠的技 術和資 源以相 
當精 度程度 完成取 樣研究 。 想必他 們沒有 特別要 遮掩的 。 但 不是所 有的數 字都是 
是在這 樣的情 況下快 樂誕生 ， 也不是 伴隨著 任何訊 息來說 明如何 精確或 不精確 。 

下一 章詳解 。 

看看 《時代 雜誌》 的 〈發 行人的 話〉： 新 訂戶的 年齡中 位數為 34 歲， 其平 均家庭 
收入 為每年 $7,270 。 早前 的調查 發現舊 訂戶的 年齡中 位數為 41 歲， 平均 收入為 
$9,535 美元 。 問 題是為 什麼兩 次都給 出年齡 中位數 ， 但刻意 沒有說 明收入 採用那 
種 平均值 。 

會否是 用了平 均值以 表達較 大數值 ， 可以 向廣告 商介紹 讀者群 是如此 富裕？ 
利用第 一章的 耶魯舊 生數據 ， 猜猜是 採用了 那一種 平均值 。 



補 充材料 



平均值 的誤區 

討論統 計數據 時少不 免提到 「平 均值 、 平 均數」 。 這名 詞的表 面意思 很明顯 ： 平 
均 值就是 大致居 中的一 個數值 。 但實 際上有 好幾種 平均值 。 

八 

平 均而言 ， 彩虹是 白色的 。 

※算術 平均值 (mathematical average/mean) 是 把所有 數據加 在一起 ' 再除以 
總體 的樣本 量計算 。 （3,3,5,4,7) 這 幾個數 值的算 術平均 值就是 把總和 (22) 除 
以 5 ( 因為有 5 個數值 ） ； 算術平 均值是 4 .4 。 

※中 位數 (median) 是一 組數值 從低到 高排列 ， 恰好處 在中間 位置的 那個數 
值 。 同 上例子 (3,3,5,4,7) ， 中 位數是 4 ， 因 為有兩 個數值 (3,3) 比它小 ， 兩個 
數值 (5,7) 比它大 。 

※眾數 (mode) 是一組 數值中 最常見 的數值 。 同上 例子的 眾數是 3 ， 因 為出現 

了兩次 。 

算術平 均值看 起來似 是以上 三種計 算方式 最簡單 的一種 ， 但實 際上不 是這樣 。 因 
為一組 數據中 如有過 高或過 低數值 (極 端的 數值) 對算 術平均 值產生 很大的 影響。 

※例如 ， 統 計一個 社區内 50 戶家庭 的收入 。 大多 數家庭 的收入 是每年 
$40,000-60,000 ， 但有一 家每年 收入是 5 百萬元 。 如此 這般的 算術平 均值因 
為 5 百萬元 這個數 值而大 大提高 。 

※如 9 個 人各有 1000 元 存款， 第十個 人只有 1 元 存款， 算術平 均值是 900.10 

美元。 

比較 可信的 數據調 查往往 去掉最 高和最 低的數 值才計 算算術 平均值 。 但不 是每一 



項調 查都這 麼可信 。 除非 看到所 有數據 或已去 掉極值 的說明 ， 最好 不要對 這些數 
據照 單全收 。 



中位數 的誤區 




中位 數容易 有誤區 ， 因為和 其他數 據相比 ， 這 不是很 
明 顯過高 或過低 。 中位數 處於中 間位置 ， 很容 易隱藏 
了那 些很大 或很小 的數值 。 例如 ， 數據是 

0.1,1,2,3,4,5,3000 ' 中 位數是 3 。 



用中位 數描述 某事件 隨時間 變化的 程度時 ， 容 易遮掩 



事實 。 如過去 九年每 年漲價 3% ， 但今 年漲價 20% ， 中位數 仍然是 3% 。 

如 總體樣 本數量 是偶數 ， 計算 中間兩 個數值 的平均 值作為 中位數 ， 可以避 免極值 

的影響 。 

眾數 的誤區 



※大 規模調 查可以 通過強 調眾數 來操控 。 100 受訪者 對某產 品的滿 意度在 
1-10 之 間打分 ， 即使打 10 分的 人數比 其他分 的人數 只多了 1 個， 10 就是眾 

數。 

> 〔 視頻 〕 算術 平均數 、 中位數 、 眾數 之比較 （ 國語 ） 

> 〔參 考〕 算數 平均數 ， 中位數 、 眾數 




如數據 組龐大 ， 較少機 會出錯 ； 如數據 組較小 ， 容 
易 有誤區 。 



※例如 ， 如數 據組數 值都在 1-100 之間 ， 但 1 出現 
了 3 次， 那麼 1 就成 為眾數 ， 雖然 平均值 （ 這種情 
況 下比較 敏感） 會接近 50。 



想一想 〈五個 整數〉 

有五 個整數 ， 其平 均數是 4 ， 眾數是 1 ， 中 位數是 5 。 求該五 個整數 。 
解題 及答案 

既然 眾數是 1 ， 必 然最少 有兩個 整數是 1 。 因為中 位數是 5 ， 第三 個整數 必然是 
5 。 這個數 字組是 {1, 1, 5, x, y} 。 

如平 均數是 4 ， 五 個整數 的總和 必然是 4 x 5 =20 ； 即是 1 + 1 + 5 + x + y = 20 ， 暗 
喻 x + y = 13 ° 

以 下說明 最簡單 的情況 ： 假設 x 是少於 或等於 y ，如 x = y ，得出 x + x = 13, 2x = 13, 
x = 6.5 。 明顯 x 是大於 或等於 5 ， 因此 5 是少於 或等於 x 少於 或等於 6.5 。 

因此， 如 x = 5 就 會有兩 個眾數 ： 1 和 5 。 因此 可推論 x = 6, y = 7 ， 而這五 個整數 
必然是 {1, 1, 5, 6, 7} 。 

資 料來源 : http://mathschallenge.net/full/average problem 



第三章 不 存在的 小數字 



一位 統計學 家建議 ， 看 到一頂 調查結 果時就 要質疑 ： 「前後 有多少 個陪審 團才找 
到 這一個 ？ 」 

如 前所述 ， 採 用頗為 偏差的 樣本可 以產出 幾乎任 何結果 ； 依常 規的隨 機採樣 ， 如 
規模小 而又多 番使用 ， 也可 以產生 幾乎任 何結果 。 

「用 家改用 白齒牌 牙膏後 ， 蛀 牙減少 23% ！ 」 仔 細閱讀 ， 說 明還聲 稱調查 結果來 
自令人 放心的 「獨 立」 實驗室 ， 數據也 是由特 許會計 師認證 。還要 什麼更 多證據 ？ 

然而 ， 大 多數人 從經驗 中知道 什麼牌 子的牙 膏都是 差不多 。 為何白 齒牌的 用家有 
這樣 的聲明 ？ 這 廣告是 否說謊 ？ 沒有 ， 況且 廣告不 必說謊 。 有更簡 單更有 效的方 
法。 

第 一個攪 局的因 素是樣 本不足 ， 不符合 統計學 的要求 。 廣告 的小字 說明測 試組群 
只有 十幾人 。 18 

有 些廣告 會忽略 這訊息 ， 即使 精通統 計也只 能猜想 這是什 麼品種 的詭辯 。 在類似 
的情況 ， 十 幾人的 的樣本 不是那 麼糟糕 。 幾年前 ， 有 一種牙 粉上市 ，自稱 「矯正 
齲齒相 當成功 。 」 當 時的想 法是該 牙粉含 有尿素 ， 已由實 驗室證 明有效 。 這是毫 
無 意義的 ， 因為 這初步 試驗只 涉及六 個案例 。 

那麼 白齒牌 牙膏沒 有說謊 ， 又如 何得出 被認證 的結果 ？ 讓任 何小組 樣本在 半年內 
記錄蛀 牙數目 ， 然後改 用白齒 牌牙膏 。 只有三 個必然 的結果 ： 蛀牙明 顯更多 、 明 
顯 更少或 沒有明 顯變化 。 如果 是第一 或第三 個情況 ， 白 齒牌牙 膏把數 據存檔 （在 
看 不見的 地方） 並重 覆調查 。 遲早 ， 只是因 為機率 的操作 ， 測試組 必然出 現第二 
種情況 ， 值得大 吹大擂 ， 作為廣 告標題 。 無論 測試組 是用蘇 打或其 他牙膏 ， 都會 
出 現第二 種情況 。 

利 用小組 群的重 要性是 這樣的 ： 在大 組群機 率產生 的任何 差異很 可能只 是少許 ， 
不 值得大 書特書 。 減 少蛀牙 2% 的廣告 不會讓 牙膏大 買特買 。 

小規 模樣本 只憑機 率產生 的變化 ， 實在 不能說 明什麼 。 來 一個小 實驗吧 。 



譯註 ： 許多國 家的保 護消費 者法例 要求廣 告說明 調査的 主辦方 ， 日 期和樣 本數目 。 



人人 都知道 拋硬幣 花紋朝 上的機 率是一 半一半 。 拋硬 幣十次 ， 花紋 朝上的 可能有 

八次 ， 這 「證 明」 花紋 朝上的 機率是 80% 。 牙膏 統計就 是這樣 。 只拋 幾十次 ， 有 
可 能得出 50% 的結果 ， 但不 大可能 。 但是 ， 如果耐 心拋上 一千次 ， 幾乎可 能極為 
接近 50% (但 不完全 肯定） 的結果 ； 這才 是真正 的機率 。 要有相 當數量 的測試 ， 
平 均規律 才可以 是有用 的描述 或預測 。 

多少次 測試才 算足夠 ？ 這是棘 手問題 ， 取決於 受採樣 調査的 母體群 其數量 和其中 
差異 的程度 。 有時 ， 樣本的 數目並 不是表 裡如一 。 

幾年前 有一個 顯著的 例子是 關於脊 髓灰質 炎疫苗 的試驗 。 這 似乎是 一個令 人印象 
深 刻的大 規模醫 學試驗 ： 450 名 兒童接 種疫苗 ， 對 照組是 680 沒 有接種 的兒童 。 
此 後不久 ， 社 區爆發 流行病 。 曾 接種疫 苗的兒 童沒有 一人感 染小兒 麻痺症 。 

但對照 組的兒 童也沒 有感染 。 在設計 試驗時 ， 相關人 員忽視 或不理 解麻痺 性脊髓 
灰質炎 的發病 率較低 。 以一 般發病 率計算 ， 這規模 的母體 群只預 期有兩 宗病例 。 
因 此這測 試從一 開始就 注定沒 有意義 。 測試母 體群要 有十五 或二十 五倍的 規模才 
可以 得出稍 有意義 的答案 。 

許多偉 大的醫 學發現 曾在類 似的情 況下急 急出台 。 正如 一位名 醫所說 ： 「要 趕快 
採 用新醫 療措施 ， 以免為 時過晚 。 」 19 

犯錯的 不限於 醫學界 。 公 眾壓力 和草率 報導往 往迫使 未經證 實有效 的治療 提前發 
動 ， 尤 其面對 當前龐 大需求 而統計 數據朦 矓不清 。 幾 年前的 感冒疫 苗和近 年的抗 
組織 胺藥就 是例子 。 這些 失敗的 「靈 藥」 之深 受歡迎 ， 主要 是因為 疾病的 不可靠 
本質 和邏輯 的缺陷 。 感冒無 需吃藥 ， 過幾天 就會自 我治愈 。 

如 何避免 被不確 定的結 果愚弄 ？ 不可能 人人是 統計學 家懂得 研究原 始數據 。有一 
個很容 易理解 的顯著 性檢驗 ： 究竟 報告的 測試數 字有多 大可能 是真實 的結果 ， 而 
不是偶 然產生 。 這 是非專 業人士 不明白 而且不 存在的 小數字 。 

如訊息 來源有 給出顯 著水準 2 ° ， 就更容 易掌握 。 顯著 水準最 簡單的 表達方 式是機 
率 。 人 口普查 局給出 「機 率為 19/20」 ， 表明 具體的 精確度 。 在 大多數 情況下 ， 這 
5% 顯著性 水準已 經夠好 。 有一些 較嚴格 的要求 99/100 的機率 ， 這 意味著 確切顯 
著差異 機率為 1% ， 這 有時被 描述為 「實際 肯定」 21 。 



'傳 聞這句 話出自 William Osier 爵士和 Edward Livingston 。 他們 都同是 醫生和 這方面 的權威 。 
' degree of significance 
― practically certain 



還 有另外 一種可 能同樣 有害的 不存在 小數字 。 這小數 字說明 事件的 範圍或 其與平 
均值 的偏差 。 平均值 （無 論是平 均數或 中位數 ， 具 體或不 具體） 往 往流於 過於簡 
化 ， 比無用 更糟糕 。 一無所 知通常 好於一 知半解 ； 只知皮 毛可能 是危險 的事情 。 

例如因 為統計 數據家 庭有三 至六人 ， 據此規 劃建房 ， 房子有 兩間臥 室供三 至四人 
居住 。這 「平 均」 規模 的家庭 實際上 只是家 庭總數 的少數 。為 「平 均」 家 庭建造 
房子 ， 而 忽視人 數較多 或較少 的家庭 ； 一 些地區 已經有 過多兩 間臥室 的房子 ， 而 
較 小和較 大的單 位不足 。 這誤導 而又不 完善的 統計已 導致代 價高昂 的後果 。 公共 

健康小 組指出 ： 「算 術平均 值歪曲 了實際 的情況 ： 三人和 四人家 庭只有 45% 。 35% 
是一 人及二 人家庭 ， 20% 是四 人以上 。 」 

人 們面對 「三至 六人」 的權 威數字 ， 莫名其 妙地失 去理智 ， 抵消了 人們從 觀察中 
得知 的印象 ： 很多 小家庭 ， 少許 大家庭 。 

類 似的不 存在小 數字情 況是令 無數父 母擔心 的所謂 「格塞 我常模 22 」 。 家 長在週 
刊和 報章讀 到小孩 三個月 大學會 坐起來 ， 立 即就想 到自己 的小孩 。 如小孩 三個月 
大 還沒有 坐起來 ， 家長 往往得 出結論 小孩是 「弱 智」 或 「不 正常」 等等令 人反感 
的顧慮 。 由於 小孩必 然有一 半到了 三個月 大不會 坐起來 ， 很 多父母 不開心 。 當然 ， 
從數學 上來說 ， 有另 一半的 父母發 現自己 的小孩 「勝於 他人」 ， 他 們的喜 悅平衡 
了前一 半父母 的憂愁 。 如憂 愁的父 母強迫 小孩符 合常模 ， 會適 得其反 。 

這 一切並 不是說 Arnold Gesell 醫 生和他 的方法 有什麼 問題。 問題出 自聳人 聽聞或 

學藝 不精的 作家過 濾了研 究人員 的訊息 ， 未有留 意在這 過程中 消失了 的數字 。 如 
果這些 「常 模」 或平 均值能 補上正 常範圍 的說明 就可以 避免很 多誤解 。 父 母看到 
自己的 小孩是 屬於正 常範圍 ， 不會擔 心那些 微小而 無意義 的差異 。 幾乎沒 有人在 
任何方 面是完 全正常 ， 就像拋 硬幣一 百次很 難會得 出五十 次是花 紋向上 。 

混淆了 「正 常」 與 「理 想」 讓這一 切變得 更糟糕 。 Gesell 醫 生只是 簡單說 明一些 
觀察到 的事實 ； 只 是擔心 的父母 在閱讀 書籍和 文章時 以為小 孩坐起 來比常 模慢了 
一天 或一個 月必然 是比別 人遜色 。 

對金賽 性學博 士的大 多數愚 蠢批評 （其實 很少人 曾透徹 閱讀） 來自把 「正 常」 等 
同 良好 ， 優異 ， 可取 。 金賽博 士被指 控把各 種常見 但不受 認可的 性行視 為正常 ， 
因而荼 毒青年 人心靈 ， 向 他們灌 輸有害 的思想 。 但他 只是陳 述他認 為這些 是正常 
活動 ； 這 正正是 「正 常」 的意思 ， 他 沒有加 上任何 「認 可」 的印章 。 他不 認為他 
是判斷 這些行 為是否 「不 可取」 的權威 。 博士 碰上了 一直困 擾著許 多其他 觀察員 
的危 險難題 ： 提出任 何情感 敏感的 内容而 不另行 草草陳 述你是 否支持 或反對 。 



Gesell's norms 



不存 在的小 數字其 欺騙性 不是因 為沒人 留意這 不存在 ， 雖然 這是小 數字成 功的秘 
訣 。 現今 對新聞 工作者 的批評 是譴責 「 坐在 辦公室 的記者 」 不再 如老派 記者去 「 跑 
新聞」 ， 而是 不加批 判地重 新編寫 政府的 新聞稿 。 以 下的不 思進取 新聞樣 本來自 
新 聞雜誌 《雙 週刊》 〈工業 新發展 ： 西 屋公司 冷浴法 增強鋼 硬度三 倍〉。 

這 聽起來 像不錯 的發展 ， 直到 讀者試 圖明白 這是什 麼意思 ， 這句 子變得 難以捉 
摸。 新 浴法是 否在處 理後增 強鋼硬 度三倍 ？ 抑 或生產 的鋼鐵 其硬度 是三倍 以前的 
任 何鋼鐵 ？ 冷浴 法有什 麼作用 ？ 看來 ， 記者 只是傳 遞文字 ， 沒有 探討其 中意思 ， 
而 是期望 讀者水 過鴨背 ， 看過了 就以為 快樂地 學懂一 些什麼 。 這讓 人聯想 到課堂 
教學講 授法的 舊定義 ： 教 師把教 科書內 容傳送 到學生 的筆記 本電腦 ， 雙方 都沒有 
動腦 筋的一 個過程 。 

幾 分鐘前 ， 我尋找 《時 代》 周 刊一些 關於金 賽博士 資料時 ， 發現另 一不堪 細看的 

語句 。 這 是電力 公司在 1948 年 的廣告 ： 「時 至今日 ， 超過四 分之三 的美國 農場有 
電力可 用」。 這 聽起來 很不錯 。 這些 電力公 司真的 很賣力 。 當然 ， 小心眼 的可以 
意譯為 「幾 乎四分 之一的 美國農 場沒有 電力可 用」。 但是 ， 真正的 噱頭是 「可 用」 
這 個詞語 ； 電 力公司 利用這 詞語自 說自話 。 明 顯地這 並不意 味著所 有這些 農民實 
際上用 上電力 ； 若然 是這樣 ， 廣告肯 定會明 確說明 。 所謂 「可 用」 可能只 是意味 
著 電線掛 在農場 的上空 或是十 或百里 的距離 。 

這 是流行 雜誌一 篇文章 的標題 ： 〈 現在可 以預測 你的子 女將來 有多高 〉 。 文 章的顯 
眼處 展示一 對圖表 ： 一個 是男孩 ， 一個 是女孩 ， 顯示 孩子成 長期的 身高會 是最終 
身高 的比例 。 「要確 定孩子 成長後 的身高 ， 核對現 在的測 量高度 。 」 

這 文章和 圖表的 致命弱 點是忽 略了不 是所有 孩子都 是以同 樣的方 式長高 。 有些慢 
慢長高 後加快 ， 有些突 然長高 一段時 間然後 趨於平 穩緩慢 ， 還有一 些是相 對穩定 
的長高 。 這些是 基於大 量測量 結果的 平均值 。 以總數 或平均 數計算 ， 隨機 取樣一 
百名 年輕人 的高度 這毫無 疑問是 準確的 ， 但父母 感興趣 的只在 某時刻 的高度 ， 這 
樣的 圖表幾 乎是一 文不值 。 想知 道孩子 將來會 有多高 ， 觀察 他的父 母和袓 父母可 
能得 出更好 的猜測 。 這不是 很科學 和準確 ， 但至 少比圖 表準確 。 

我十四 歲時參 加高中 軍訓班 ， 按身 高排在 矮子班 ， 按圖 表我最 終身高 應該是 5 
英呎 8 英吋 。 現 在我是 5 英呎 11 英吋 。 預測 身高有 三英吋 的錯誤 是極為 差勁的 。 




Time of eating 1 minuto latar 2 minutes lotar Time of eating 1 minute later 2 minutes later 



有兩 盒葡萄 + 堅果 + 麥片 的早 餐食品 ， 不同 的包裝 ， 都有 「科 學家 證明這 是真的 ！ 」 
的圖 表標榜 「在兩 分鐘内 開始給 你能量 ！ 」 左 圖表在 左邊列 出數字 ， 右圖 省略了 
數字 。 數 字沒有 說明代 表什麼 ， 沒 有意思 ； 反 正兩個 圖表都 沒有特 別意思 。 圖表 
顯示 陡峭的 攀爬線 ， 分別 顯示在 進食後 一分鐘 （左圖 ） 和 兩分鐘 （右圖 ） 後能量 
釋放 。 左圖的 能量線 爬升約 快一倍 ， 這 表明繪 圖人員 沒有想 到這些 圖表是 什麼意 
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以數 百萬美 元增加 ， 或是以 蝸牛速 度每: 



這 種愚蠢 圖表可 能只是 想吸弓 1 青少年 
或早上 半夢半 醒的疲 憊家長 。 沒 有人會 
用 這樣的 統計圖 來侮辱 大商巨 賈的智 
慧吧… 或者 會吧？ 《財 富》 雜誌 的廣告 
宣 傳欄經 常刊載 某機構 業務逐 年上升 
趨勢的 令人印 象深刻 圖表。 圖表 沒有數 
字 。 究竟這 是業務 增加一 倍或一 年逐年 
- 只增加 一兩元 ， 不 得而知 。 



如平 均值或 圖形或 趨勢沒 有包含 一些重 要數字 ， 就要加 倍小心 。 露 營人士 不會依 

賴平均 溫度的 報告選 擇營地 。 61°C 是舒 適的平 均溫度 ， 在加 州的可 選範圍 包括内 
陸沙 漠和海 岸離島 。 但中間 數忽略 了範圍 ： 内陸沙 漠的溫 度範圍 15 〜： L04°C ， 海 
岸 離島是 47〜87°C 。 



第四章 為了子 虛烏有 無事忙 



Josiah Stamp 爵 士記述 Randolph 勳爵研 究收入 的報告 。 他的 私人秘 書一直 站在旁 

邊 。 勳爵說 ： 海關 收入比 去年同 期增長 34% ， 令 人欣慰 。 秘書 糾正他 ， 指 出這只 
是 • 34% 。 

「這有 什麼區 別？」 勳 爵問道 。 祕 書解釋 34 是 • 34 的 一百倍 ， 勳爵說 ： 「我經 

常 看見那 些該死 的小點 ， 但從 來不知 道他們 的意思 。 」 

小數點 和其他 該死的 差異突 然出現 ， 困 擾著測 試成績 的比較 。 不介 意的話 ， 提一 
個例子 。 國光 和美蓮 參加智 力測驗 。 很多 學生在 求學時 期都會 參加類 似測驗 ， 已 
成為這 個時代 的主要 巫術偶 像之一 ， 可能要 爭論要 花功夫 才能找 出測試 的結果 ； 
訊 息是如 此深奧 ， 經常被 認為要 交由心 理學家 和教育 學家處 理才是 安全的 。 無論 
怎樣 ， 國光 測試的 智商是 98 ， 美蓮是 101 。 當然 ， 智商 是基於 100 的 平均或 「正 
常」 水平 計算。 

啊 ！ 美蓮是 聰明的 ， 高於平 均水平 ； 國光 低於平 均水平 。 不要糾 纒於這 些結論 ， 
因為任 何這樣 的結論 都是無 稽之談 。 

先要 說清楚 ： 無 論智力 測驗計 量的什 麼東西 ， 並不是 我們一 般以為 的智力 。 智力 
測驗忽 略了一 些重要 的事情 ， 例 如領導 力和創 造性的 想像力 ， 沒有 考慮到 社交場 
合的判 斷能力 ， 或 是音樂 、 藝 術或其 他能力 的傾向 ， 更不要 說努力 處事和 情緒平 
衡等性 格特徵 。 最重 要的是 學校最 經常給 出的測 試是閱 讀測試 （快 速和 便宜） ； 
慢讀 的學生 不可能 拿高分 。 

假 設我們 已經認 識這一 切缺點 ， 並同 意智商 僅僅只 是計量 一些定 義含糊 ， 處理抽 
象問題 的能力 。 也假設 國光和 美蓮參 加的是 一般認 為是最 好的個 別測試 ， 並且不 
要求 任何特 定的閱 讀能力 。 

智商測 試聲言 是智力 的採樣 。 一 如任何 其他抽 樣方法 的產品 ， 智商 是一個 有統計 
誤差 的數字 ， 誤 差影響 智商數 字的精 確度和 可靠性 。 

這些試 題就像 隨機在 農田採 摘玉米 ， 採摘 了一百 條玉米 ， 應 當對這 塊農田 的種植 
狀態心 中有數 。 這 樣的訊 息已足 以和其 他玉米 田比較 （如 兩塊玉 米田不 是很相 
似） 。 如兩塊 農田差 別不大 ， 可能要 採摘更 多玉米 ， 並以一 些確切 的質量 標準評 
價採摘 的樣本 。 



玉米樣 本能如 何準確 代表整 塊農田 ， 可以用 可能誤 差和標 準誤差 23 的數 字表達 。 
假設要 在柵欄 以外目 測許多 農田的 大小， 第一 件事可 能是先 測量步 行一百 碼的誤 
差 。 如經多 次步測 ， 發現 誤差的 平均值 是三碼 ， 即 是說步 測有一 半是超 出三碼 ， 
一 半是少 了三碼 。 

那 麼能誤 差是每 一百碼 有三碼 ， 或 3% ， 因此記 錄步測 結果是 100±3 碼 。（大 多數 
統計學 家現在 更喜歡 用另一 種但相 等的標 準誤差 24 ， 只算 計約三 分之二 的事件 ， 
而不是 一半半 ， 在數 學計算 方面更 為方便 。 本書集 中在可 能誤差 ， Stanford-Binet 

測驗 也是這 樣使用 。 ） 

一如以 上的步 測例子 ， Stanford-Binet 智 商測驗 的可能 錯誤已 證實為 3% 。 這不是 

關 乎測驗 的優劣 ， 基 本上只 是表達 測驗是 否一致 。 所 以國光 的智商 可以更 充分地 
表達為 98 ± 3 ， 美蓮是 101 ± 3 。 

這 是說國 光的智 商是在 95 〜： L01 的範圍 ， 他在 這範圍 內可能 是高於 或低於 任一智 
商數字 ， 機 會均等 。 從而 可見美 蓮的智 商高於 或低於 98 〜： L04 範圍 任一智 商數字 
的 機會也 是均等 。 國光智 商高於 101 有 V4 機會 ， 美 蓮的智 商低於 98 也是有 1/4 
機會 。 有 3% 以 上機會 國光不 是遜色 ， 而 是優異 。 

這 歸納為 解讀智 商和許 多其他 採樣結 果的唯 一方法 是在範 圍之内 。「正 常」 不是 
100 ， 而是 90〜80 (舉例 而言） ， 也就 是說比 較在這 範圍內 和在較 低或較 高範圍 
的兒童 才有一 些意義 。 比 較只有 極小差 異的數 字是沒 有意義 。 必 須始終 記住這 
士 符號 ， 即使 （或尤 其是） 沒有特 別說明 。 

無 視這些 隱含在 所有採 樣研究 的誤差 ， 只會 導致了 一些極 為愚蠢 的行為 。 有雜誌 
編 輯奉讀 者調查 為福音 ， 主 要是因 為他們 不理解 。 男 讀者有 40% 偏愛一 篇報導 ， 
只有 35% 喜歡 另一篇 ， 他們 要求更 多類似 第一篇 的報導 。 

對雜 誌來說 ， 讀者的 35% 和 40% 之間 的差異 可能是 重要的 ， 但調査 中的差 別可能 
不是 真實的 。 為了節 省成本 ， 讀者 樣本往 往減少 到只有 幾百人 ， 尤 其是淘 汰了那 
些誰 根本不 看雜誌 的人們 。 主 要吸弓 I 婦 女的雜 誌其男 讀者樣 本的數 目 可以 是非常 
小 。 這些再 細分為 「 閱讀全 部文章 」 ， 「 閱 讀大多 數文章 」 ， 「 閱讀一 些文章 」 和 「不 
看 文章」 各分類 ， 那 35% 的 結論可 能只是 根據極 少樣本 。 隱 藏在這 些數字 背後的 
可 能誤差 會是如 此之大 ， 依賴 這結論 的編輯 等同瞎 子摸象 。 



probable error and the standard error 
standard error 



有時 ， 人們 為了一 些數學 上是真 實和顯 著但是 如此微 小以至 沒有意 義的差 異而大 
費周折 。 這違背 了古語 的智慧 ： 「差異 如會導 致差異 才是差 異」。 一 個典型 例子是 
「老 金牌」 香煙為 了一些 子虛烏 有的事 情而吵 吵鬧鬧 ， 並從 中獲利 。 

《讀者 文摘》 的抽 煙編輯 無意中 開始這 場鬧劇 。 他們 本來認 為所有 牌子的 香煙都 
是 一樣的 。 雜誌委 托實驗 室分析 幾個牌 子香煙 的濃煙 ， 並公 佈結果 ： 全部 牌子香 
煙的尼 古丁和 諸如此 類東西 的内容 。 雜誌 詳列詳 盡數字 ， 證 明所有 牌子的 香煙實 
際上是 相同的 ， 抽那一 個牌子 沒有任 何區別 。 

你 可能認 為這是 對捲菸 製造商 和構思 新廣告 角度的 廣告公 司是一 大打擊 ， 這似乎 
完 全推翻 了香煙 舒緩喉 嚨和對 人體無 害的廣 告聲言 。 

但有人 發現在 幾乎相 同毒素 含量的 列表中 ， 有 一牌子 的香煙 必然排 名最低 ； 這就 
是 「老 金牌」 。 於是 報章出 現了最 大標題 的廣告 ， 標 示這本 全國通 行的雜 誌測試 
所 有香煙 ， 「老 金牌」 含有 最少數 量的不 良物體 ， 但 剔除了 這些差 異可以 忽略不 
計 的說明 。最 後， 「 老金牌 」 被責令 終止這 種誤導 性廣告 。 這並 沒有任 何影響 ； 「 老 
金牌」 已 從中得 到好處 。 



補 充材料 

以 會員制 組織的 公司討 論業積 。 營銷 部門的 統計顯 示上月 的 新會員 人數是 全年最 
高 。 這 只是部 分正確 。 翻 查記錄 ， 前兩個 月的退 會人數 也是整 年最高 ， 會 員人數 
基 本持平 。 上月 的新會 員人數 也是與 去年同 期相若 ， 表明 這不是 新趨勢 。 25 



資米 斗來源 ： http://zestsms.com/about/blog/statistically-irrelevant/ 



第五章 嘖 嘖稱奇 的圖形 



數字是 恐怖的 。 小矮胖 信心滿 滿告訴 愛麗絲 ， 他 是文字 的主人 ； 但 許多人 對數字 
沒 有同樣 的信心 。 也 許這要 回溯我 們早期 數學經 驗導致 的創傷 。 

不 管是什 麼原因 ， 這對於 渴望讀 者眾多 的作家 ， 計劃廣 告能多 賣貨物 的公司 ， 期 
望書 籍或雜 誌大受 歡迎的 出版商 ， 這確 實是一 個真正 的問題 。 常見 的情況 是表格 
形式 的數字 是禁忌 ， 文字又 未能充 份表達 ， 往往 只有一 個答案 ： 插圖 。 

最簡 單的統 計插圖 ， 或圖形 graph ， 是不同 的線條 ， 用於顯 示趨勢 很有用 ， 實際 

上大家 都有興 趣利用 圖形去 知道或 表達或 指出或 譴責或 預測。 

以 下圖形 顯示國 民收入 如何在 一年之 内增加 10% 。 

先劃 出方格 ， 底線寫 下月份 ， 左 邊標示 「以 十億 元計」 。 在方 格標出 數據點 ， 連 
起來完 成圖形 ： 



表明年 內發生 了什麼 ， 並且 標明每 
個月 的升幅 。 人人容 易理解 ， 因 為整個 圖形是 
按比例 ， 而且 底線有 0 值作 為比較 。 10% 看來 
就是 10% ： 上升趨 勢是實 質的但 也許不 是壓倒 

性。 



如果只 是想傳 達訊息 ， 這是 非常好 。 但是 ， 假 
如想贏 得爭論 ， 震 撼讀者 ， 促 使他轉 化為行 
動 ， 賣東 西給他 ， 這 圖形不 夠誇張 。 斫 掉底部 。 
















































(也減 少用紙 ；這是 向挑剔 
人士 反對這 誤導性 圖形的 好理由 。 ） 數字 
相同 ， 曲線 也相同 ， 圖形 也相同 。 沒有什 
- 除 了給出 的印象 。 匆促的 



讀 者只看 到國民 收入線 十二個 月爬升 了一半 的篇幅 ， 這是因 為已經 不見了 被裁掉 
的部 份圖形 。 一 如語法 課中的 缺失句 子部分 ， 這是 「不言 而喻」 。 當然 ， 眼睛不 
「理 解」 不存在 的東西 ； 小 小的增 長在視 覺上成 為大大 的增長 。 



既 然練習 了欺騙 ， 為什麼 停下來 ？ 還 有進一 步的伎 倆可用 ， 讓 微薄的 10% 看起來 



更活 潑有力 。 簡單 地改變 縱坐標 和橫坐 標之間 的比例 。 沒 有任何 規則反 對這樣 

做 ， 並 且給出 更漂亮 的圖形 。 要 做的只 是把縱 坐標答 比例從 2 元 改寫為 0.2 元 。 




C========;Zt 這 令人印 象深刻 ， 是不是 ？ 讀者 會感到 全國經 濟繁榮 。 

I 這 是改寫 「國 民收 入上升 10%」 為 「國 民收 入急增 

：：二二卩亡兰 ^二二二= 二 10%」 。 這 更有效 ， 因為沒 有包含 任何形 容詞或 副詞破 

========= 壞 客觀性 的幻想 。 沒 有人可 指責你 。 



這樣的 例子不 止一個 。 一 份新聞 雜誌用 同樣方 法顯示 股市創 下新高 ， 圖 形被截 
斷 ， 以使 看起來 攀升得 更利害 。 哥 倫比亞 天然氣 公司的 「我們 新年度 報告」 的重 

刊圖表 。 如果仔 細閱讀 和分析 小數字 ， 會 發現十 年內生 活成本 上升約 60% ， 而天 
然氣 的成本 下降了 4% 。 很不錯 ， 但 顯然哥 倫比亞 天然氣 認為還 不夠好 ， 於是在 
90% 砍掉 了圖表 （沒 有縫 隙或其 他警告 指示） 。 所以 ， 讀者見 到的是 ： 生 活成本 
增加了 兩倍多 ， 天然 氣成本 下降三 分之一 ！ 

Govt pay rolls up I Govt, pay rolls stable \ 
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政府 薪資大 幅增加 ！ 政府薪 資平穩 

鋼鐵 企業曾 使用類 似的誤 導圖形 試圖影 響輿論 反對工 資上漲 。 這不是 新手法 ， 很 
久以前 已有這 樣的不 當行為 ， 不僅只 是在統 計學專 業期刊 。 《鄧氏 評論》 主筆早 
在 1938 年看 出左圖 的破綻 ： 標題是 「政府 薪資大 幅增加 ！ 」 ， 曲線 從底部 急升至 
頂部 ， 使 得增加 4% 的 樣子看 來超過 400% 。 右 國是修 正圖形 ： 給出 了相同 的數字 ， 
誠實的 紅線僅 上漲了 4% ， 標題 改寫為 「政 府薪資 平穩」 。 
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補 充材料 



圖形 的誤區 



在統 計學中 ， 誤導 圖形也 稱為扭 曲圖形 ， 歪曲 了數據 ， 構成統 計誤用 ， 導 致不正 



口口冊 



圖形誤 導可能 是因為 過分複 雜或製 作粗韃 ， 但 精心泡 製的圖 形也可 以導致 不同解 
釋 。 誤 導性圖 形可能 是故意 ， 以隱 瞞數據 ； 或是無 心之失 ： 錯 用了繪 圖軟件 ， 錯 
或是 數據不 適合圖 形表達 。〔虛 假〕 廣告 特多用 上誤導 性圖形 。 



美國統 計學家 Edward Tufte 創造了 「垃 圾圖表 chartjunk」 這 個新字 ： 

「 圖 形的室 内裝修 佔據大 量篇幅 ， 但 沒有告 知讀音 什麼新 的東西 。 裝飾 
的 目的各 不相同 - 使 圖形看 起來更 加科學 和嚴謹 ， 使 表達顯 得活潑 ， 
讓設 計師有 機會展 現技能 。 不管 其原因 ， 這 些篇幅 都不是 數據或 只是冗 
並且 往往是 chartjunk 。 ...Chartjunk 可以把 沉悶數 據變得 慘不忍 



但 不能遮 掩數據 之不足 。 
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不當使 用圖形 




A 不需用 圖形而 使用岡 「可 能導致 下必要 说 I 

解釋 。 -般 情況— 



， 圖形要 配上越 多解釋 
越少 。 圖形表 達不總 是比列 



Gun deaths in Florida 

Number of murders committed using firearms 




達訊息 
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偏頗 的圖形 



驟眼 



左圖 是美國 佛羅里 達州因 槍擊致 死的統 計圖形 

看來 ， 在 2005 年訂立 「市 民自 衛法」 後 
事 件從高 位回落 。 仔 細一看 ， 這圖形 違反一 般常規 
直 軸是從 800 倒數至 0 ！ 數據是 真實的 
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The Visual Display of Quantitative Information. 
IeI 圖取自 http://www.theusrus.de/Blog-files/pie_chart.jpg 
http://www.livescience.com/45083-misleading-gun-death-chart.html 



圓形圖 的誤區 




圓形 圖最重 要的功 能在於 呈現整 體中各 部份的 組成和 比例。 其實 條形圖 (bar chart) 

更適 合比較 各個組 成部份 的差異 ； 雖 然讀者 熟悉時 鐘角度 ， 但還是 比不上 對於長 
度 的感受 。 如果不 看數字 ， 條 形圖比 較容易 看出學 士人數 是碩士 的兩倍 ， 碩士是 
博士 的三倍 。 29 

Edward Tufte 在 有這樣 的說法 ： 

「表 達小的 數據集 ， 列表比 圖形圖 好很多 。 列表幾 乎總是 優於愚 蠢的圓 
形圖 ； 唯 一比圓 形圖更 糟糕的 是幾個 圓形圖 ， 因為 讀者要 在多個 圖形之 
間的 混亂空 間要作 出比較 。 圖形圖 的數據 密度低 ， 又不能 在視覺 層面把 
數 值排序 ， 因 此不應 該使用 。 」 3 ° 




這一段 和下一 段以及 黑白插 圖取自 〈圓形 圖的使 用〉， 略 有改寫 。 

The Visual Display of Quantitative Information p. 178 



第六章 一 維圖形 



上 一代時 常提到 「小 人物」 ， 即是所 有的人 。 這聽 起來太 白鴿眼 ， 我 們成為 「老 
百姓」 。 這 也很快 被遺忘 ， 現在 我們是 「國民 、 公民 、 市民」 。 但 「小 人物」 依然 
存在 ； 他就是 圖形上 的人像 。 



圖 形選擇 形象化 ， 以一 個小人 代表一 百萬人 ， 一個錢 袋或一 堆硬幣 代表一 千英鎊 
或一百 萬美元 ， 一 塊牛排 代表明 年的牛 肉供應 ； 這 些全是 圖形統 計圖表 31 ， 一種 
有用 的設備 ， 吸 引注意 ， 也 能夠成 為流暢 ， 狡猾 和成功 的騙子 。 



圖形統 計表源 自普通 條形圖 32 ， 用於表 達和比 較兩個 或兩個 以上數 據的簡 單和流 

行方法 。 



條形 圖也能 夠瞞騙 。 如 圖形只 表達一 個因素 
體積難 以比較 的三維 物件代 替條形 
斷的線 形圖同 樣的啟 人疑竇 。 地理書 ， 公司 
用 上吸引 眼睛的 圖形統 計圖。 



但改變 了條形 的寬度 和長度 ， 或以 
被截 斷的條 形圖一 如被截 
明 和新聞 雜誌往 往用上 條形圖 ， 也 
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條形 圖 



不 是欺騙 ， 只是 戲劇化 ！ 



如目的 在於溝 通訊息 ， 條形圖 已可滿 足要求 。 但我想 要更多 。 我想 說的是 英國工 
人 的待遇 遠遠比 Rotundian 更好 ， 我越 能戲劇 化表達 £15 和 £30 的區別 ， 我的 

論 點越引 人注目 。 說實話 （當 然我不 打算這 樣做） ， 我希望 你從圖 形推斷 出一些 
東西 ， 讓你得 到誇張 的印象 ， 但我不 想被你 看破我 的招數 。 有一 種方法 ， 而且每 
天都有 人這樣 欺騙你 。 



我 只是畫 一個錢 袋表示 Rotundian 的 £15 ， 又 畫一個 大一倍 的錢袋 代表英 國人的 

£30 。 這是按 比例的 ， 是不是 ？ 我追求 的是你 的感覺 。 英國 工人的 工資遠 遠多於 

外國人 。 



pictorial graph or pictograph 
bar chart 



當中的 詭計是 這樣的 。 因 為第二 個錢袋 是第一 個的兩 倍高和 兩倍寬 ， 佔用 篇幅不 
是兩倍 ， 而 是四倍 。 數字 依然是 二對一 ， 但 佔據主 導地位 的視覺 印象是 四比一 ， 
或 者更多 。 因為這 些三維 圖像是 立體的 ， 第 二個錢 袋的厚 度必然 是第一 個的兩 

倍 。 幾何 教科書 指出類 似立體 的體積 隨著任 何維度 的立方 而改變 ： 2x2x2=8 。 如 
第一個 錢袋有 £15 ， 第二 個應有 £120 。 

那確 實是這 巧妙小 圖給出 的印象 。 雖 然是說 「兩 倍」， 我實 際留下 了八比 一壓倒 
性比 例的持 久印象 。 

你也很 難指責 我我有 任何犯 罪意圖 。 我 只是隨 波逐流 。 新聞雜 誌反復 這樣做 ， 一 
如上例 的錢袋 。 



補 充材料 



很多 統計圖 形不適 合三維 (3D) 形式 ， 圓 形圖特 別如此 。 由 於消失 點效果 ， 即使同 
樣大小 ， 3D 圓形圖 靠近讀 者的部 份會看 起來比 較大塊 ， 較遠 的部份 比較小 。 這 
扭曲 了資料 的呈現 。 只 是為了 美觀而 犧牲精 準表達 ， 說 不過去 。 下 面的例 子說明 
這現象 ： 



誤導的 3D 圓形圖 正常的 圓形圖 




3D 圓 形圖的 C 項似 乎是和 A 項不 相上下 ， 而實 際上不 及一半 。 
不正確 的縮放 

條形圖 使用象 形比例 ， 不應均 勻縮放 ， 因 為這導 致誤導 性比較 。 讀 者看到 的是象 
形圖 的面積 ， 而不 是高度 或寬度 ， 導致 比例以 平方面 積解讀 。 



條形 圖的不 正 確縮放 2D 象形 圖 形 



不正 確縮放 


正規 


比較 
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條形 圖的不 正 確縮放 象形 圖 


: B 實 際上是 A 的 9 倍。 



2D 形 狀的縮 放比較 



方形 


圓形 


三角形 
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留 意縮放 比例影 響對面 積大小 的感覺 。 



3D 象 形圖不 當縮放 導致立 方效果 。 



Home Sales 




2001 



這 3D 象形 圖顯示 2001 年房 屋銷售 比去年 有增長 。 因為沒 
軸說明 ， 讀者 無法理 解變化 ； 兩 倍的縮 放看來 是八倍 (2 3 ) 。 



不當 縮放的 3D 象形圖 誤導讀 者以為 項目實 際上改 變了大 /J 



誤導 


正規 
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因為縮 放效果 ， 似乎 看來香 蕉的數 量較多 。 




Simne: United Stales Hureau of the Census 

A(,ES OF WoMFA' IX THE UnITF.II Sl ATF.S, If)—;" 

(Pictoki \i. Soi. n> Dim. ram) 



以 人像表 達人數 
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人 形表達 



35 




垃圾 增長率 
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幾 多倍？ 
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截 斷圖形 truncated graph (也 稱為 撕裂圖 torn graph ) 的直軸 （y 軸） 不是從 0 

開始 ， 可用於 顯示微 小的變 化或節 省空間 ， 但 可能導 致把少 許變化 錯認為 重要變 
化的錯 誤印象 。 如數值 是在狹 窄範圍 ， 有 些軟件 （如 MS Excel) 其 默認功 能會自 



截斷 條形圖 


正規 條形圖 
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兩個 圖形顯 示相同 的數據 ； 然而， 左側 的截斷 圖似乎 表明數 據有顯 著差異 ， 
而這在 右邊的 正規條 形圖是 幾乎不 可見的 。 



http://www.tim Wallace jnfo/b/wp-content/uploads/^Oll^^womendiagram.jpg 
http://yale.edu/ynhti/curriculum/images/500 ^)8. 06. 06.03.jpg 

http://www.conceptdraw.com/solutiori-park/resource/images/solution! 

http://yale.edu/ynhti/curriculum/images/500^D8.06.06.11.jpg 




應適當 提醒讀 者直軸 被截斷 。 




改變 直軸的 最大數 值會導 致不同 的感覺 。 

改變 y 軸的 最大值 



原圖形 


較小的 最大值 


較大的 最大值 
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改 變圖形 長闊比 例會導 致不同 的感覺 。 



原圖形 


闊 度減半 、 高 度加倍 


闊 度加倍 、 高 度減半 
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沒有 比例的 圖形往 往用於 誇大或 減輕項 目 差異 的感覺 



看來差 異較小 



看來差 異較大 
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A B 



直轴沒 有標示 ， 不 能確定 是否從 0 開始 ， 也不能 確定圖 形是否 被截斷 

同樣 的差異 ， 不 同比例 導致不 同感覺 。 



另 一例二 



增長有 上有落 


增長穩 定快速 


增 長緩慢 
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這三 個圖形 表達同 樣數據 ， 因 而數據 的實際 （x，y) 斜率是 一樣的 ' 


但因為 各自的 直軸比 例不同 （沒 有標示 ） ， 所以視 覺上有 不同的 斜率。 受 操控的 誤導。 



遺漏了 數據的 圖形就 是誤導 的圖形 ， 不 能從中 得出正 確結論 



遺 漏數據 的散點 圖 （scatter plot) 



正規 散點圖 
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左圖 遺漏了 四年 的數據 ， 增 長線顯 得平滑 



不正當 的割圖 



從其他 圖形抽 出部份 為割圖 ， 應保留 （有時 強調） 原來 的特徵 



原圖形 



割圖 
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割圖只 抽出原 圖部份 ， 沒有 準確表 達原意 。 



剪裁數 據和扭 曲圖形 



The Great Retrenchment 




Medidn Income fof U.S. Men by Age, tn 2012 Ooldrs. Source: U.S. 
Census Bureau 



2013 年 ， 彭博 通訊社 企業及 市場編 輯發表 
署 名文章 〈美 國男士 四十年 來收入 下降〉 
For U.S. Men, 40 Years of Falling Income ， 附 

上插 圖說明 三個年 齡組群 的美國 男士的 
中 位數收 入下降 ， 下降 斜率頗 為驚人 。 文 

章集 中討論 1972 年和 2012 兩年 的數據 。 



數據 來自美 國人口 調查局 ， 彭 博是有 聲譽的 通訊社 ， 作者不 是初出 茅廬的 見習記 
者 ， 報 導應該 是可信 的吧？ 



Eric Portelance 37 留 意到這 截斷圖 （直軸 不是從 0 開始） 問 題多多 ， 於是深 入研究 
相 關數據 ， 發 現原作 者只集 中討論 1972 年和 2012 年 的數據 ， 似乎 故意忽 視了在 

這期 間的多 年數據 。 




重新製 作的沒 有截斷 的連續 圖給出 不同年 
份 的數據 ， 得出不 同印象 。 總 體而言 ， 中 
位數收 入依然 呈現下 降趨勢 ， 但斜 率不是 
第一圖 的劇烈 。 45-54 歲組 群是相 當穩定 ， 
直至 2000 年才有 下降。 




若是 圖形沒 有截斷 ， 回歸 正規從 0 開始 
中 位數下 降的斜 率可說 是緩慢 。 



若 原圖沒 有截斷 ， 中 位數下 降的斜 率不是 
文章 強調的 「危 險」。 



https://medium.eom/p/c63780efa928 



Portelance 進一步 找出人 口調査 局的全 部數據 ， 發現彭 博編輯 「忽 略了」 1947 至 
1972 年 的趨勢 。 




1947 至 2011 年 的全部 數據得 出不同 
的結論 ： 收入持 續上升 ， 直至 1971 

年見頂 ， 之後 有些年 齡組群 保持平 
穩 ， 有些逐 年下降 。 研 究主題 應該是 
「為 何如 此？」 而不是 「美國 男士四 
十年來 收入下 降」。 




如 追隨彭 博作者 只選用 兩年的 數據作 
為起點 和終點 ， 不同 的選擇 ( 只選 1947 
和 2012 年） 得出完 全不同 的結論 ！ 



第七章 半吊子 的數字 



一名印 度法官 忠告熱 心的年 輕英國 公務員 ： 「當 你年紀 大一點 ， 就 不會熱 衷於統 

計數據 。 印度 非常熱 衷於積 累統計 ： 收集 ， 添加 ， 提高至 n 次冪 ， 取 立方根 ， 並 
準 備精彩 的圖形 ； 但絕不 能忘記 的是這 些數字 每一個 都是來 自村長 ， 他們 喜歡說 
什麼 數字就 說什麼 ！ 」 

如 果不能 證明你 想證明 的什麼 ， 證明別 的東西 ， 假 裝是同 一東西 。 人們面 對統計 
統計 數據的 衝擊時 會發呆 ， 幾乎不 會注意 到其中 的差別 。 半 吊子的 數字是 非常有 
用 的手段 。 

藥廠不 能證明 新藥能 治感冒 ， 但可以 大字發 布實驗 室報告 ： 半公克 新藥在 試管內 
11 秒殺死 31,108 枚病菌 。 要確保 實驗室 是有信 譽或有 令人印 象深刻 的名字 。 拍 
攝穿 白袍的 醫生拿 著報告 。 

但不要 提出幾 個噱頭 ： 在試管 中有良 好效用 的藥劑 可能不 會在人 的喉嚨 有作用 ， 
不要 說明殺 死什麼 病菌以 免混淆 。 誰知道 是什麼 病菌引 起感冒 ， 特 別病源 可能不 
是病菌 ？ 事實上 ， 沒有 人知道 試管中 各種細 菌和感 冒有什 麼關連 ， 但人們 不會深 
入理解 ， 尤 其是感 冒病人 。 

也許 ， 這 例子太 明顯了 ， 人 們多了 對感冒 的認識 ， 雖 然廣告 頁面從 來少不 了這些 
聲 東擊西 的例子 。 

在種 族歧視 的年代 ， 奉命 調查以 「證 明」 不是 這回事 ， 這是艱 巨任務 。 你 可以計 
劃 一次民 意調查 ， 或更好 的是委 托有聲 譽的機 構調査 ； 向 有代表 性的母 體群發 
問 ： 黑人 的就業 機會是 否和白 人一樣 ？ 每隔一 段時間 進行一 次調查 ， 最後 得出趨 
勢 的結論 。 

普 林斯頓 大學民 意調查 中心曾 經調查 這題目 ， 發現 得出的 民意表 裡不一 。 每位受 
訪 者除了 回答主 題問題 ， 還要回 答其他 問題以 測試他 是否歧 視黑人 。 調査 發現種 
族歧視 觀念最 嚴重的 受訪者 ， 對 就業問 題的答 案往往 是正面 。 同情 黑人受 訪者有 
三 分之二 認為黑 人就業 機會遜 於白人 ； 有種族 歧視觀 念的人 有三分 之二認 為黑人 
就業機 會不遜 於白人 。 明顯 這項調 査對黑 人公平 就業機 會說不 清是什 麼情況 ， 反 
而揭 露了人 們看待 種族的 另一面 。 

因此 ， 在種 族歧視 的年代 ， 調查 黑人的 公平就 業機會 ， 會得出 「黑 人就業 沒有問 



題」 的結論 。 情 況越差 ， 這 些半吊 子數據 讓調查 看來更 好一些 。 

「執業 醫生有 27% 選 擇金葉 牌香煙 ， 多於 任何其 他牌子 。 」 暫由不 論這說 法是否 
虛假 ， 只要 問這說 法有什 麼問題 。 大 多數人 的反應 可能是 ： 「那 又怎 樣？」 醫學 
界受 到尊重 ， 但醫 生知道 香煙品 牌的訊 息是否 多於普 通煙民 ？ 他們 是否有 特別知 
識選 擇危害 最小的 香煙？ 當然 他們不 是這樣 。 然而 ， 「執業 醫生有 27% 選 擇金葉 
牌 香煙」 似 乎意味 著更多 的什麼 。 

「實 驗室試 驗證明 大力牌 電動榨 汁機功 能提高 26% 。 」 。 這 聽起來 真不錯 ； 直至 
真相揭 露是大 力牌電 動搾汁 機的功 能是與 老式手 動搾汁 機比較 。 大 力牌電 動搾汁 
機可能 是市場 上功能 最差的 ， 那個 26% 數字 是完全 不相干 。 

不是只 有廣告 客戶玩 弄數字 ， 更多 的是從 數字中 導出沒 有關連 的結論 。 一 篇交通 
安 全的文 章報導 ： 「晚 間七 時的交 通意外 是早上 七時的 四倍」 ， 因此 在早上 開車更 
安全 。 數據沒 有問題 ， 但結論 不可靠 。 晚 上的交 通比早 上繁忙 ， 所以較 多意外 ， 
與 文章的 結論沒 有關係 。 

如果 沒有留 意這些 數字是 半吊子 的數據 ， 你可 以被任 何交通 工具事 故的統 計數據 
嚇 得半死 。 

相比 1910 年 ， 更多人 死於飛 機意外 。 現 代的飛 機是否 更危險 ？ 廢話 。 現 在的飛 
機 乘客是 以前的 數百倍 ， 僅 此而已 。 

「據 報導 ， 去年的 鐵路意 外死亡 人數為 4,712 人 。 」 這 很嚇人 。 真 相是有 一半死 
亡 人數是 因為汽 車司機 闖紅燈 ， 在道 口與火 車相撞 ， 其餘大 部份是 跳車的 霸王乘 
客 ， 只有 132 人是火 車乘客 。 甚至 這數字 也沒有 很大比 較意義 ， 除 非這連 接到總 
乘 客里程 。 

知 道火車 ， 飛機 或汽車 去年的 意外傷 亡數字 ， 也要同 時知道 每百萬 乘客一 公里數 
字 ， 才可以 知道風 險比率 。 

聲東擊 西有很 多法寶 ， 一 般手法 是並列 兩種看 來相關 或相似 ， 但其 實沒有 關連的 
項目 。 某企 業與工 會的關 係惡劣 ， 人 事部經 理受命 「調 查」 員工 對工會 的投訴 ， 
必然可 以找到 一些相 關投訴 ， 理直氣 壯聲稱 「員 工有 78% 反對 工會」 ； 實 情只是 
搜集 一些不 經分類 的投訴 和埋怨 ， 彙集 為另一 套數據 。 這 沒有證 明什麼 ， 但似乎 
是完成 了調査 。 



當然 ， 這是 雙面刃 ； 工 會也可 以隨時 「調 查」， 「證 明」 員 工對企 業的諸 多不滿 。 



企業 的財務 報告多 的是這 些半吊 子數字 。 留意 出乎意 料的龐 大利潤 和隱藏 在某他 
名目 的利潤 。 汽車工 人工會 有這樣 的報導 ： 

「公司 公報去 年利潤 三千五 百萬元 ， 佔銷 售額的 1.5%」 ， 少 得可憐 。 換一 個三毛 
錢 的燈泡 已耗上 二十元 銷售額 。 員工 甚至想 到要節 省用紙 。 公報的 利潤當 然不是 
全 部利潤 ， 其餘 的隱藏 在折舊 ， 特 別折舊 和儲備 。 

同樣 要留意 百分比 。 通用 汽車公 報本年 九個月 的稅後 銷售利 潤增加 125% ， 投資 
部門盈 利增加 448% 。 這 究竟是 好是壞 ？ 視乎你 的觀點 。 

同樣 ， 讀者 來函為 A&P 商 店辯護 ： 「商店 每千美 元銷售 額只賺 了十元 ， 不 應被譴 
責 為奸商 。 」 咋 聽之下 ， 這樣 的利潤 確實微 不足道 ； 住房抵 押貸款 和銀行 貸款的 
息率在 6% 之上 。 A&P 公司 結束超 市業務 ， 把 資金存 入銀行 賺取利 息豈不 是更有 
生 意頭腦 ？ 

心法在 於投資 年回報 率不是 等於銷 售總額 的利潤 。 正如 另一位 讀者投 函解釋 ： 「 如 
每天 早上以 $0.99 買貨 ， 當天以 $1 價 格售出 ， 利 潤只有 1% ， 但全年 365 天的投 
資 盈利是 365% 。 」 

任 何數字 都有許 多表達 的方式 。 例如 ， 可稱之 為銷售 回報率 1% ， 投 資回報 15% ， 
一千 萬美元 的利潤 ， 利 潤比去 年增加 40% ， 或比去 年下降 60% ， 方 法是選 擇一個 
最 適合當 前目的 的數字 ， 希 望沒有 幾個人 會理解 這是如 何不完 善反映 了情況 。 

不是 所有半 吊子數 字是故 意欺騙 的產品 。 許多統 計數據 ， 包 括對大 家非常 重要的 
醫 療數據 ， 是因 為源頭 失真而 被扭曲 。 一些微 妙事項 如墮胎 ， 婚外 生育和 梅毒都 
有驚 人的矛 盾數據 。 美國 最近公 佈的流 感和肺 炎數字 ， 奇怪 的結論 是這些 疾病幾 
乎 都局限 在南部 三個州 ， 佔報告 病例約 80% 。 實情是 這三個 州依然 把流感 和肺炎 
列為必 須申報 的病例 ， 其他州 已經停 止申報 。 

一 些關於 瘧疾的 數字沒 有意義 。 1940 年前 ， 美國 南部每 年有數 十萬例 ， 現在只 
有 極少數 ， 似乎短 短幾年 内有極 大改進 。 實 情是現 在只呈 報確診 為瘧疾 的病例 ， 
而之前 是包括 了南方 人慣稱 的感冒 或發冷 。 

1898 年的美 西戰爭 ， 海軍死 亡率是 9%。 ， 同一 時期的 紐約市 平民死 亡率是 16%。 。 
海 軍徵兵 人員後 來用這 些數字 來宣傳 在美國 當海軍 更安全 。 假設這 些數字 是準確 
的 ， 看看這 兩個數 字為何 幾乎毫 無意義 。 兩個組 群沒有 可比性 。 美 海軍主 要身體 
健康的 年輕人 ； 紐 約市平 民包括 嬰幼兒 ， 老人 和病人 ， 他們 全都有 較高的 死亡率 。 



兩 個數字 不能證 明符合 海軍標 準的士 兵活得 更長壽 ， 但也不 能反證 。 

在發明 脊髓灰 質炎疫 苗之前 ， 沮喪 的消息 是小兒 麻痺症 是史上 最嚴重 ， 當 年比以 
往 任何時 候都更 多病例 。 

專家 檢視這 些數字 ， 發現 幾件令 人鼓舞 的事情 。 其中 之一是 當年的 小兒數 目是破 
紀錄 的數字 ， 如發病 率不變 ， 病 例數字 也會水 漲船高 。 另一 發展是 父母更 多認識 
脊髓 灰質炎 ， 即 使輕症 病例更 願意求 醫就診 。 最後是 有了財 政誘因 ： 有更 多的小 
兒 麻痺症 保險和 慈善組 織的更 多援助 。 所有這 一切令 人懷疑 小兒麻 痺症達 到新高 
的說法 ， 後來 的死亡 總人數 證實了 懷疑是 合理的 。 

值得留 意的事 實是死 亡率或 死亡人 數往往 比發病 率或發 病人數 是更好 的衡量 - 
僅僅是 因為報 告和記 錄死亡 率或死 亡人數 是較為 盡心和 準確。 

美國 每四年 就有一 次半吊 子數字 的熱潮 。 數字沒 有週期 ， 而 是四年 一度的 選舉來 

了。 共 和黨在 1948 年 10 月發表 的競選 聲明完 全是建 立在似 乎是互 相關連 但原來 
互 不相關 的數字 ： 

1942 年 ， 當 Dewey 當選 州長時 ， 一 些地區 老師的 的最低 工資低 至每年 $900 。 
今天 ， 紐約 州學校 的老師 享有世 上最高 的薪水 。 Dewey 州長接 納他委 任的委 
員會調 查結果 ， 在 1947 年提取 部份盈 餘即時 增加教 師薪金 。 因此 ， 紐約市 
教師 的最低 薪金是 $2,500-5,325 。 

完 全可能 Dewey 先 生是教 師之友 ， 但數字 不是這 樣說話 。 這 是比較 「之 前」 和 
「之 後」 的 老把戲 ， 從 $900 急增至 $2,500-5,325 聽起 來是極 大改進 ， 但沒 有說明 
$900 是農村 地區教 師的最 低工資 ， 而 $2,500-5,325 只是 紐約市 的範圍 。 Dewey 州 

長可 能改善 了教師 的待遇 ， 也可 能沒有 。 

之 前和之 後的比 較照片 是雜 誌和廣 告的熟 悉特技 。 拍 攝兩次 ， 告訴 你新油 漆塗層 
可以 做到什 麼區別 。 在 兩次攝 影之間 ， 客廳已 經添加 新傢具 ， 有時 「之 前」 的照 
片只 是很小 ， 光線 不好的 黑白照 ，「之 後」 版本是 全彩色 大照片 。 比對照 片顯示 
模特兒 用護髮 素的前 後對比 ： 天哪 ， 她 確實好 看得多 ， 但仔 細檢查 會發現 大部分 
的 變化是 因為她 的微笑 ， 光 亮頭髮 。 是 攝影師 的功勞 ， 不是 護髮素 。 



補 充材料 




2007 年 ， 英 國的廣 告聲稱 ： 「多於 80% 牙 ■ 

露 潔牙膏 」 。 一般人 從廣告 得出的 印象是 80% 牙 
餘下的 20% 推薦其 他牌子 。 



雕 



英國 廣告標 準局介 入調查 

助的市 場調查 （但 沒有 公佈） ， 而且受 訪牙醫 可以推 
不是只 選一項 。 調 查數據 顯示至 少有另 一牌子 和高露 潔的得 分不分 



上— 



英 國廣告 標準局 下令禁 制廣告 。 
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2009-10 年 ' 體育用 品公司 Reebok 聲稱 EasyTone 和 

RunTone 跑步鞋 經實驗 室測試 ， 「證明 只需穿 上跑步 
鞋走路 ， 比一般 跑步鞋 有助強 化腿筋 和小腿 11% ， 
臀 部肌肉 更高達 28% ！ 」 



據 ， 被判 罰款二 千五百 萬美元 
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〔台 灣〕 行 政院公 平交易 委員會 委員會 27 日決議 ， 台灣 莊臣公 
司在贈 品包裝 上登載 「近 90% 消 費者選 擇植物 歐護」 ， 商 品品質 
及 内容為 虛偽不 實及引 人錯誤 ， 違反公 平交易 法規定 ， 處 新台幣 
100 萬 元罰鍰 。 

中央 社報導 ， 公平 會表示 ， 台灣莊 臣依據 博輿市 場研究 顧問於 
2006 年 7 月間 進行的 市場問 卷調查 ， 在其 贈品包 裝廣告 上宣稱 ， 近九成 消費者 
「選 擇」 植物 歐護。 

公平 會指出 ， 但 經調查 ， 該問卷 其實是 將莊臣 的歐護 植物防 蚊液與 另一品 牌防蚊 
液 ， 進行清 爽不油 膩偏好 的比較 ， 而 非購買 的比較 ， 廣告卻 未註解 「九 成」 的比 
較基礎 ， 恐 致消費 者誤導 。 




'資米 斗來源 ： http://www.telegraph.co.uk/news/uknews/15397lVColgate- gets-the- brush- off- for- misleading- ads.html 
資 料來源 : http://www.investopedia.com/financial- edge/061^/4-examples-of- misleading-health-ads. aspx 



公平 會表示 ， 此外 ， 該問 卷調査 以隨機 抽樣方 式進行 ， 就 100 位受 試者現 場使用 

兩 種產品 後調査 ， 姑且 不論樣 本數是 否足以 支持該 廣告宣 稱內容 ， 廣 告宣稱 「近 
九 成消費 者選擇 歐護」 ， 顯然 與問卷 調查結 果有別 ， 因此 認定廣 告不實 。 4(5 
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Centrum 在 1997 年的廣 告聲稱 「十個 美國人 有九個 未能從 食物攝 

取 所需的 營養素 ， 缺 少了重 要的維 生素和 礦物質 。 」 該聲 明引用 
1976 至 1980 年間進 行的一 項調查 ， 發 現在調 査當天 ， 受訪 者只有 
9% 記 得要進 食水果 和蔬菜 的每日 推薦量 ， 因此 得出結 論高達 91% 
的美國 人缺少 維生素 （可能 包括你 ！ ） 。 



這 說法問 題多多 ： （ 一） 這 不能證 明那些 人缺少 維生素 ； 事實上 ， 他們可 能在前 
一天己 進食足 夠數量 的水果 和蔬菜 ； （二） 只 是一天 的飲食 不足以 計量整 體飮食 
習慣 。 食物攝 入量應 以幾星 期計算 ； （三） 即 使攝入 數量低 於推薦 量也可 以有充 
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Vioxx 是一種 非甾體 抗炎藥 ， 類 似阿司 匹林或 布洛芬 。 
Merck 藥 廠的直 銷廣告 耗資億 萬美元 （2000 年 花費了 1.6 
億美元 ） 。 該 藥物於 1999 年被 FDA 批准 ， 直至 2004 年才 

停用 。 這是 源於一 宗法律 訴訟聲 稱該藥 物引起 23,800 宗 
心血 管病例 （包 括心臟 病發作 ） ， 跟進 研究發 現服用 Vioxx 

的患者 其心血 管病例 統計上 顯著高 於安慰 劑患者 。 

這種 不安全 藥物如 何得到 FDA 批准推 出市場 。 事因原 有研究 發表時 ， 藥 廠排除 
了 三宗心 肌梗塞 的病例 ， 從 而改變 了統計 顯著性 。 可 以想象 藥廠僱 用的科 學在重 
重 壓力下 「忘 記」 這三 個病例 ， 或是他 們不理 解統計 顯著性 的意義 。 42 





1995 年 ， 英國 藥物安 全委員 會向十 九萬名 醫護人 員發出 
警告 ： 第三 代口服 避孕九 增加了 在腿部 或肺部 形成血 



http://dasanlin888.pixnet.net/blog/post/54467926 
— 資 f 斗來源 ： http://www.statisticshowto.com/rnisleading-statistics-examples/ 
" http://www.statisticshowto.com/how-significant-is-significant-the-vioxx-scandal/ 



塊 ， 有 潛在的 雙倍致 命風險 。 這警告 導致在 1996 年有 一萬三 千宗墮 胎手術 。 所 
謂 「潛 在的雙 倍致命 風險」 原 來是基 於以下 的數據 ： 每十萬 名服用 第二代 口服避 
孕九 的婦女 有十五 人患上 可致命 的血塊 ； 服用 第三代 口服避 孕九的 則增至 二十五 
人 。 作 為參照 ， 沒 有服用 避孕九 的婦女 每十萬 人有五 宗病例 。 是的 ， 風險 是增加 
了 ， 但比 懷孕的 風險要 小得多 ， 不值得 那麼令 人震驚 。 43 




統計師 被醫生 告知她 的乳房 X 線檢 查呈陽 性反應 ， 
她詢 問醫生 她患癌 的機率 是多少 ？ 。 醫生給 出令人 
震驚 的答案 ： 80% 。 她遍 査文獻 ， 找 到正確 答案是 
10% ， 更令 她震驚 的是許 多醫生 給出不 同答案 ： 20% 
醫 生回答 10% 、 20% 醫 生回答 1% 、 60 % 醫 生回答 81 
或 90% ° 



不是醫 生看不 懂數字 ， 而是 有太多 研究報 告被斷 章取義 ， 渲 染誇大 
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http://news.bbc.co. uk^/hi/health^l3848.stm 

http://www.statisticshowto.com/even-physicians-dont-understand-statistics/ 



第八章 「後 此謬誤 45 」 又來了 



要估 算荷蘭 或丹麥 的家庭 生了多 少孩子 ， 你可 以亂猜 ， 或 
是計數 他們房 子屋頂 的鸛巢 。 46 

統 計術語 描述鸛 和新生 兒兩者 之間有 「正 相關 關係」 ， 有 A 
就有 B 。 

這個 古老神 話實際 說明更 有價值 的意義 ： 容 易記住 和提醒 
我 們兩個 因素之 間的關 聯不足 以證明 在前的 A 引起了 其後的 B 。 




在鸛 和嬰兒 的例子 ， 很 容易找 到與兩 者相關 的第三 個因素 ： 大家庭 住在大 房 二 



但在其 他情況 ， 不總是 那麼容 易發現 因果關 係的假 設缺陷 ， 尤其是 流行偏 見認為 
這 是有特 別意義 。 

有人研 究和證 實煙民 的大學 成績是 低於非 吸煙者 。 很多人 很高興 ， 這說法 流傳到 
現在 。 這 樣看來 ， 要有好 成績是 在於放 棄吸煙 ； 再進 一步的 結論是 吸煙讓 人變蠢 。 

我相信 這項研 究是正 確完成 ： 有 誠實和 精心挑 選的足 夠樣本 ， 相關性 高等等 。 

其中的 謬誤頗 為古老 ， 經常出 現在統 計材料 ， 躲在可 觀的數 字之下 。 謬 誤就是 ： 
因 為先有 A ，後有 B ， 所以 A 導致 B 。 既然吸 煙和學 業不走 在一起 ， 因此 吸煙導 
致學 業不佳 。 但也 可以倒 轉來說 ： 學生成 績不佳 驅使他 吸煙草 ， 但 不酗酒 ； 這結 
論也可 以證明 是對的 ， 也得 到證據 的支持 。 但 這不能 滿足宣 傳手法 。 

更好的 結論是 兩者沒 有關連 ， 兩者 都是第 三因素 的產物 。 是 否喜歡 交際的 學生較 
少時間 看書而 多抽煙 ？ 或 者之前 某人證 實外向 性格與 成績低 落之間 有相關 ， 這關 
係比成 績與智 力之間 關係更 為明顯 ？ 也 許外向 性格比 內向的 人更多 抽煙。 問題的 
關 鍵是有 很多合 理解釋 ， 很 難只是 堅持己 見只挑 選一個 。 但 很多人 是這樣 。 



為了避 免掉落 「後此 謬誤」 的謬論 作出錯 誤判斷 ， 你需 要仔細 檢查任 何關乎 「彼 
此 相關」 的陳述 。 這種謬 誤有幾 種類型 。 



Post Hoc — 個事件 發生在 另一事 件之前 ' 並 不一定 是後者 的原因 ' 也譯為 「事後 謬誤」 。 

圖 片取自 http://www.todavifoundout.com/wp-content/uploads^01^3ystork-340x400.ipg 。 歐洲民 間傳說 鸛是送 子鳥 。 



一種 是偶然 產生的 相關性 。 你可 捜集一 組數字 來證明 一些不 太可能 的事情 ； 但如 
再 試一次 ， 可能無 法證明 。 一如 「牙 膏防止 蛀牙」 的廣告 ， 你只需 扔掉不 想要的 
結果 ， 廣泛發 佈那些 合心意 的結果 。 如只是 小樣本 ， 很有可 能發現 你想得 到一對 
一 事件之 間的一 些實質 性關聯 。 

常見 的一種 共變是 其中的 關係是 真實的 ， 但不 可能確 定那個 變量是 「 因」， 那個 
是 「 果」。 在某些 情況下 ， 因 果關係 可能會 時不時 改變從 屬地位 ， 或兩者 可能同 
時是 「因」 也 同時是 「 果」。 人們的 收入和 持有股 票之間 的相關 性可能 是這樣 。 
有更多 錢就多 買股票 ； 有更 多股票 ， 收 入越多 ； 說不準 是那一 個導致 另一個 。 

也 許最棘 手的是 變量互 不影響 ， 但有 真正的 相關性 。 這方 面有頗 多研究 ， 例如煙 

民的 學業成 績差勁 ； 有 太多醫 學統計 雖然證 實相關 關係是 真實的 ，但這 「因 A 
而 B」 的關係 只是猜 測而矣 。 作 為廢話 或偽相 關的統 計例子 ， 有人 興高采 烈地指 
出 ： 馬 薩諸塞 州長老 會牧師 的薪金 和古巴 甜酒價 格有密 切關係 。 

何者為 「因」 ？ 何者為 「果」 ？ 換 句話說 ， 長老 是否受 益於或 支持甜 酒貿易 ？ 這 
太 牽強了 ， 明 顯是荒 謬之言 。 緊 記世事 多的是 「後此 謬誤」 ， 只是 更為微 妙隱蔽 。 
長 老和甜 酒的例 子很容 易看到 這兩個 數字齊 齊增長 ， 是 因為第 三因素 的影響 ： 世 
上 萬物的 價格都 在增長 。 

〔 歐洲 〕 人們提 到六月 的 自 殺 率最高 ， 也提到 最多人 在六月 結婚 。 是否 自 殺驅使 
較多 人結婚 ？ 或是較 多求婚 不遂的 人自殺 ？ 稍 微更有 說服力 （但同 樣未經 證實） 
的解釋 是在整 個冬天 舔著抑 鬱傷口 的人本 以為到 了春天 會雨過 天晴， 可是 六月來 
了 ， 他 仍然感 到絕望 ， … 。 

要注意 的另一 個結論 ： 推斷得 出的相 關性已 超越引 以為證 的數據 。 很容易 表明多 
雨水 ， 玉 米和農 作物生 長得更 高更好 。 似 乎雨水 是好事 。 但 連綿數 月的強 降水會 
損壞甚 至破壞 農作物 。 正 相關關 係只能 維持到 某一點 ， 然 後好事 變壞事 。 超過一 
定 的雨量 ， 下 雨越多 ， 玉米收 成越少 。 

當然 ， 「相 關性」 的 傾向經 常不是 被描述 為一對 一的理 想關係 。 高 個子男 生的體 
重 超過矮 子男生 ， 這 是正相 關關係 。 但 是可以 很容易 找到一 個六英 尺的高 個子體 
重 及不上 五英尺 的矮子 ， 所以 相關性 是小於 1 。 負 相關簡 單說明 「此消 彼長」 ： 
變量 A 增加 ， 變量 B 會下降 。 在物理 學這是 「反 比」： 燈泡的 光線越 遠越弱 。 這 
些物 理關係 往往有 完美的 相關性 ， 但 是企業 或社會 學或醫 學數字 很少是 如此整 
齊 。 即使學 歷一般 與收入 成正比 ， 但往 往有許 多反證 。 請記住 ， 相 關性可 能是真 
實 和基於 真實因 果關係 ， 但如 在單一 事件中 確定任 何行動 ， 可能是 幾乎一 文不值 。 



有無 數研究 證實大 專以上 學歷與 未來收 入掛鉤 ， 大學 派發無 數小冊 子吸弓 I 學生 。 
我 不否定 這意圖 ， 我贊 成教育 ， 特 別是課 程包括 《統 計學 入門》 。 這些數 字已經 
明確證 明擁有 大學學 位的人 賺更多 。 當然 ， 有 很多例 外情況 ， 但趨 勢是強 勁和明 
確的。 

唯 一的錯 誤是有 人利用 這些數 字和事 實得出 完全沒 有根據 的結論 。 這是後 此謬誤 
的最 佳例子 。 有 人認為 這些數 字表明 ： 如果你 上大學 ， 在這三 、 四 年間你 可能賺 
到 的收入 是高於 以其他 方式消 磨這三 、 四年 。 這種沒 有根據 的結論 其依據 是基於 
同樣毫 無根據 的假設 ： 因為 曾受大 學教育 的人賺 更多錢 ， 是因為 他們上 過大學 。 
其實我 們不肯 定知道 ： 這 些人即 使沒有 上大學 ， 可 能都會 賺更多 。 一些事 實強烈 
表明正 是如此 。 大學學 生有兩 個群組 多得不 成比例 ： 富家子 弟和聰 明學子 。 聰明 
的人即 使沒有 上大學 ， 可能已 經有很 好的賺 錢能力 。 談到富 家子弟 …錢生 錢有多 
種方式 。 無 論是否 上大學 ， 富 家子弟 很少落 在低入 息階層 。 

銷量 龐大的 星期日 報刊有 以下這 段對話 ， 也許 你會覺 得有趣 ， 因為 同一作 家有另 
一 篇文章 〈 流 行觀念 ： 對或錯 〉 。 

問 ： 上大學 對你終 生不結 婚的機 會有什 麼影響 ？ 

答 ： 如果 是女生 ， 一 生老處 女的機 會挺高 。 男生剛 好相反 ， 很少終 生不娶 。 

美國康 奈爾大 學調查 1,500 名典 型的中 年大學 畢業生 ， 發現 男生有 93% 已成婚 ( 相 
對於 一般人 口只有 83%) 。 但 中年女 性畢業 生只有 65% 結了婚 。 大 學畢業 生中的 
老處 女是一 般人口 終生不 嫁婦女 的三倍 。 

十 七歲的 小美看 到報導 ， 知道如 果她去 上大學 ， 婚姻 大事的 前景很 不樂觀 。 而且 
統計 資料的 來源頗 有聲譽 。 是的 ， 報導有 引用康 奈爾大 學的統 計數據 ， 但 結論不 
是倉 促讀者 所認為 是來自 校方的 。 

這又 是案例 ： 利用 真正的 相關性 強加諸 未經證 實的因 果關係 。 也許 這一切 是倒過 
來說 。 即使這 些女生 沒有上 過大學 ， 仍 然會終 生不嫁 ， 比例 甚至可 能高於 大學女 
生 。 如果 這說法 的可能 性並不 優於作 家堅持 的結論 ， 這也許 也是猜 測而矣 。 

事實上 ， 有 證據表 明有終 生不嫁 傾向的 女士更 有可能 上大學 。 金賽 性學博 士似乎 
找到 了性慾 和教育 有一定 相關性 ， 而 性狀可 能在大 學預科 年齡期 已形成 。 這更令 
人 質疑上 大學會 影響人 們結婚 的說法 。 



所以 ， 小 美注意 ： 這是未 必如此 。 



醫學文 章曾經 提出嚴 重警告 ， 指出 喝牛奶 的人患 癌的機 會增高 。 在美國 新英格 
蘭 ， 明尼 蘇達州 ， 威 斯康星 州和瑞 士這些 大量生 產和飲 用牛奶 的地方 ， 癌 症似乎 
變 得普遍 ， 而 在牛奶 稀缺的 亞洲國 家斯理 蘭卡罕 見癌症 。 文 章也指 出美國 南方各 
州少 喝牛奶 ， 癌 症病例 也較少 。 此外 ， 有人指 出經常 喝牛奶 的英國 婦女患 上某些 
類型癌 症是少 喝牛奶 的日本 婦女的 十八倍 。 

只要稍 為深入 研究這 些數字 就可以 得出不 同解釋 。 癌症主 要是中 年或以 後的疾 
病 。 瑞士和 前文提 到的國 家同樣 的是國 民長壽 。 在那項 英日婦 女研究 ， 英 國婦女 
比 曰本婦 女平均 年長十 二年。 

Helen M. Walker 教授提 出證明 ， 解 釋有趣 但愚蠢 的說法 ； 證 明假設 每當兩 件事情 

一起 變化必 然有因 果關係 的謬誤 。 調 查婦女 的年齡 和某些 物理特 徵之間 的關係 ， 
可以 計算步 行時腳 的角度 ， 會發 現老年 婦女的 角度往 往較大 。 可能 即時反 應這反 
映因為 腳的角 度加大 ， 所 以她們 長老了 。 人人都 看出這 是荒謬 的解釋 。 似 乎是年 
齡增 長導致 腳的角 度增大 ； 大多 數婦女 長老了 ， 腳的角 度加大 。 

任何這 樣的結 論很可 能是虛 假和必 然是不 合情理 。 要適當 得出正 確結論 ， 研究應 
在一 段時間 内觀察 同一婦 女或類 似組群 。 這會 消除一 個可能 的因素 ： 老年 婦女成 
長時 ， 被 教導走 路時腳 要朝外 ， 而 現在的 年輕少 女被教 導這樣 的姿勢 不正確 。 

如有人 （通常 是有利 害相關 的人） 對某 項相關 關係大 做文章 ， 首先 看看這 是否這 
類型 的關係 ： 產 生於事 件流程 ， 時 間趨勢 。 我 們這時 代很容 易發掘 到任何 兩項事 
物 的正相 關關係 ： 大學學 生人數 ， 精神病 人數目 ， 香煙 消耗量 ， 心臟 病數字 ， 使 
用 X 光 機次數 ， 加州 學校教 師的薪 俸等等 。 認為其 中一些 事物是 另一些 事物的 
「因」 顯 然是愚 蠢無理 。 但太 陽之下 無新事 ， 每 天都有 人提出 。 

以統 計學方 法和迷 惑的數 字和小 數點來 闡釋因 果關係 ， 只是 比迷信 好一點 ， 但往 
往 比誤導 更嚴重 。 新 赫布里 特群島 的島民 一直相 信體蝨 是健康 良好 的表徵 。 他們 
觀察了 幾百年 ， 目 睹身體 健康的 人通常 有體蝨 ， 而生病 的人往 往沒有 。 觀 察本身 
是 準確和 有見識 ； 歷 久以來 ， 這些非 正式的 觀察往 往都是 。 從證據 中得到 這些原 
始結論 ： 體蝨讓 人健康 ， 人人 都應該 有體蝨 。 對此 ， 我們很 難有什 麼說法 。 

正如上 文指出 ， 在 統計磨 房處理 比這還 要稀少 的數據 ， 直至 常識的 目光再 也無法 
穿透 ， 已 經為醫 療界和 許多雜 誌和專 業醫學 期刊賺 錢不少 。 精明觀 察者終 於弄清 
楚新 赫布里 特群島 的現象 。 事 實證明 ， 幾乎每 個島民 大部分 時間都 有體蝨 ； 可說 
是正 常狀態 。 然而 ， 當病 人發熱 （很 可能 是由那 些體蝨 傳染） ， 病 人體溫 變得太 
熱 ， 體蝨離 開這不 再舒適 的居所 。 這 案例的 因果完 全混淆 、 扭曲 、 扭轉和 混在一 



起。 



補 充材料 

錯 誤的因 果關係 

當 統計測 試展示 A 和 B 之間 的關係 ， 通常 有五種 可能性 ： 

1. A (因） 導致 B (果 ）。 

2. B (因） 導致 A (果 ）° 

3. A 和 B (因） 互相 導致對 方出現 （果 ）° 

4. A 和 B (因） 一 起導致 C (果 ）° 

5. 觀 察得的 關係純 屬偶然 （沒有 因果關 係）。 

第 五個可 能性可 透過統 計測試 來量化 ， 計算出 來的機 率與前 四個可 能關係 發生的 
機率 一樣大 ， 但事 實上應 變量之 間是沒 有關係 。 

如調 查發現 沙灘泳 客購買 雪糕的 人數與 遇溺人 數有相 同趨向 ， 沒有 人會斷 言雪糕 
導 致遇溺 ， 因為這 是明顯 地無關 。 遇溺和 購買雪 糕的人 數明顯 與第三 個因素 （沙 
灘上的 人數） 相關。 

但這 謬誤的 例子不 是笑話 ： 例子是 「接觸 化學品 X 會導致 癌症」 的諸 多報導 。 把 
「接觸 化學品 X 的 人數」 代替 「購買 雪糕的 人數」 ； 把 「患上 癌症的 人數」 代替 
「遇 溺的 人數」 。 在這 情況下 ， 即 使兩者 沒有真 正的因 果關係 ， 但 統計上 依然有 
關聯 。 例如 ， 如某 地方有 「危 險」 （即 使並不 危險） 的 化工廠 ， 中 產家庭 因恐懼 
而遷離 ， 誘 使更多 低收入 家庭搬 到該地 。 然後 發現低 收入家 庭患上 癌症的 數字上 
升 ， 於 是推論 化工廠 是元凶 ； 其 實這可 能是基 於較差 的膳食 和生活 環境或 是較低 
檔 次的醫 療服務 。 



第九章 統 計誤世 



通 過使用 統計材 料以誤 導他人 ， 可 稱為統 計操控 ， 或是 「統 計誤世 47 」 。 

本書 的書名 和一些 内文似 乎暗示 所有這 些操作 都是意 圖欺騙 的產物 。 美國 統計協 
會的分 會會長 曾為此 斥罵我 。 他說 ： 大 多數不 是欺騙 ， 而 是無能 。 他的說 話有意 

思 ， 但 我不能 肯定統 計學家 認為那 一項批 評更為 不恭敬 。 可能更 重要的 是要記 
住 ： 扭 曲統計 數據及 其操作 並不總 是專業 統計人 員所為 。 統 計學家 的成果 被推銷 
員 ， 公 關專家 ， 記者 ， 或 廣告文 案扭曲 ， 誇張 ， 過 度簡化 ， 或 通過選 擇扭捏 。 

但 無論在 任何情 況下誰 是有罪 的一方 ， 很難說 這是無 心之失 。 雜誌 和報紙 經常誇 
大炒 作虛假 的圖表 ， 很少減 斤扣兩 。 在我 的經驗 ， 業 界提出 的統計 參數很 少報大 
報喜 ， 往往是 表達差 於數據 。 另 一方面 ， 少見 工會聘 請無能 的統計 人員做 出數據 
差 於表達 的統計 。 

只 要這些 錯誤是 一面倒 ， 很 難歸結 於笨拙 或意外 。 

歪曲統 計數據 巧妙手 法是利 用地圖 。 地圖 隱含許 多變量 ， 其中事 實可以 被掩飾 ， 
關係 被扭曲 。 我最 喜歡的 「變 光陰影 48 」 獎杯 頒發給 不久前 波士頓 第一國 民銀行 
發 表和轉 載極廣 ， 包括所 謂納稅 人群體 ， 報紙和 《新聞 周刊》 。 



變 光陰影 （ 西 部各州 風格 ） 變 光陰影 （ 東 部各州 風格 ） 




為了表 示我沒 有作弊 ' 地 圖加了 MD, DEL 和 RI 。 



該 圖顯示 目 前聯 邦政府 拿走和 花費的 美國收 入部份 ， 利用有 色部份 表示密 西西比 
河以 西各州 （除了 路易斯 安那州 ， 阿肯色 州和密 蘇里州 部分） ， 其 聯邦政 府支出 



statisticulation 

The Darkening Shadow 



已等 於各州 國民的 總收入 。 

欺騙謊 言在於 選擇地 廣人稀 的各州 ， 其 收入相 對較少 。 以同樣 的誠信 （和 同樣的 
不 誠信） ， 繪圖者 可能已 開始在 紐約或 新英格 蘭著色 ， 得出 極為更 小但更 令人印 
象深刻 的陰影 。 使用相 同數據 ， 他 可以給 出產生 完全不 同印象 的地圖 ， 但 沒有人 
有興 趣發表 。 至少 ， 我不知 道有任 何強大 群體有 感興趣 發表偏 少的公 共開支 。 

如 果繪圖 者目標 只是傳 達訊息 ， 很容 易做到 。 他可 以選擇 一組中 間狀態 的州份 ， 
其總 面積與 總收入 佔國民 收入比 例相同 。 

這張 地圖公 然誤導 ， 不是 宣傳的 新把戲 ， 而是經 典手法 。 同 一家銀 行不久 前公佈 

顯 示聯邦 政府在 1929 年和 1937 年開 支的地 圖版本 ， 很快被 輯錄為 「可怕 插圖」 

歪 曲事實 的例子 。 這間銀 行依然 故我發 表繪圖 ， 而更有 見識的 《新聞 周刊》 和其 
他人 一直照 搬可也 ， 沒有警 告也沒 有道歉 。 

如果你 認為現 在有通 貨膨脹 ， 看 看這個 。 有一 段時間 ， 美國 人口普 查局想 出了在 
年 報陳述 「平 均家庭 收入為 $3,100」 。 但同 時報章 又報導 Russell Sage 基金 會給出 
的同樣 數據是 可觀的 $5,004 。 也許 你高興 知道大 家生活 得不錯 ， 但 也可能 感受到 

這數 字與你 觀察所 得不符 。 也許 你認識 的人不 是基金 會認識 的群組 。 

人口普 查局和 基金會 的數字 怎會如 此不同 ？普査 局是說 「中 位數」 ， 也是 應該如 
此 ； 但即 使基金 會是說 「平 均數」 ， 差 別也不 應該如 此巨大 。 基金 會解釋 數據來 
自 把美國 人民個 人總收 入除以 149,000,000 ， 得 出人均 $1,251 ； 四口 之家即 共有收 
入 $5,004 ° 

這 樣奇怪 的統計 操控有 兩方面 的誇大 ： （ 一） 使用 「平 均數」 而不 是較小 和更多 
訊息的 「中 位數」 （上 文有 討論） ； （二） 假設 家庭收 入是家 人數目 成正比 。 我有 
四 個孩子 ， 也希 望事情 是這樣 ， 但事 實不是 。 四人家 庭的收 入絕對 不是兩 人家庭 
的兩倍 。 

公 平地說 ， 基 金會的 統計學 家可能 不是存 心欺騙 ， 應 該說他 是想表 達人們 捐獻而 
不 是受惠 的意思 。 有趣 的家庭 收入數 字只是 副產品 ， 但這 欺騙行 為已廣 泛傳播 ； 
這是 不能輕 信平均 數的最 好例子 。 

表 面精確 會賦予 最聲名 狼藉的 統計數 據看來 有斤兩 。 考慮 小數點 的例子 。 調査一 
百 人昨晚 睡了多 少小時 ， 比如 說得出 總數為 7,831 小時 。 首先 ， 任 何這樣 的數據 
遠 遠不可 能精確 。 大多數 人的的 猜測有 十五分 鐘或更 長時間 的錯誤 ， 而且 不能保 
證這 些錯誤 〔在數 據集〕 會自 我平衡 。 有人失 眠五晚 ， 只記 得折騰 了半晚 。 無論 



如何 ， 調查 算出各 人的平 均睡眠 時間為 7.831 小時 ， 聽來你 是知道 自 己在 做什麼 。 
如果 發表的 數字是 7.8 (或 近乎 8) 小時 ， 這不是 什麼驚 人的吧 。 這是拙 劣的接 
近數值 ， 比 幾乎任 何人的 隨意猜 測都沒 有什麼 啟發性 。 

馬克 思以同 樣手法 製造精 密的虛 假氛圍 。 他 要計算 工廠的 「剩餘 價值率 49 」 ， 開 
始 彙集一 些假設 、 猜測 和整數 ： 「假設 廢品為 6%- 。 成本 為整數 342 英鎊 。 有一 
萬個 紗錠… 假設 成本為 1 英鎊 。 折舊率 假設為 10% 。 假 設工廠 租金為 300 英鎊 。 
這 些數據 是由一 位曼徹 斯特市 紡紗工 人提供 ， 可 以信賴 。 」 馬克思 利用這 些近似 
數 值算出 剩餘價 值率是 6% 。 5 ° 

百分 比是製 造混亂 的沃土 。 一如令 人印象 深刻的 小數點 ， 百 分比為 不精確 數據罩 
上精密 的光環 。 美 國勞工 部曾表 示華盛 頓特區 的兼職 家庭在 指定月 份領取 的交通 
津貼 ， 有 49% 是 每星期 18 美元 。 細 查之下 ， 這個百 分比原 來出自 兩個只 有四十 

一 項優惠 的案例 。 基於 少數案 例的任 何百分 比都可 能誤導 ； 直接給 出數字 更能提 
供更 多訊息 。 如百分 比帶上 小數點 ， 小 心欺詐 。 

「現在 購買聖 誕禮物 ， 節省 100% ！ 」 。 這廣告 聽來像 是聖誕 老人自 掏腰包 ， 但只 
是製 造混亂 。 原來 是減價 50% 。 節省 100% 是指新 價格的 100% ； 這 是事實 ， 但不 

是廣 告吹噓 的事實 。 

標 準石油 公司的 文獻走 得更遠 ： 「割價 14〜220%」 。 這似乎 要求賣 方支付 買方一 
筆可 觀費用 去拉走 油膩膩 的東西 。 

某公 司宣布 貨品銷 售獲利 3,800% ，算 自成本 1.75 元 和售價 40 元 。 計算利 潤百分 
比有多 種方法 （必 須說明 ） 。 如 果以成 本計算 ， 利 潤率是 2,185% ； 以售價 計算是 
95-6% 。 這 間公司 發明了 新方法 ， 得出 了誇張 的數字 ； 而這 似乎常 常發生 。 

甚至 紐約時 報轉載 美聯社 報導時 ， 也犯了 「移 動基數 51 」 的錯誤 ： 「經濟 蕭條今 
天狠狠 地打了 工人一 記重拳 。 印 第安納 波利斯 建築貿 易工會 屬下的 管道工 ， 泥水 
匠， 木匠和 其他工 獲得工 資增加 5%。 這只 是他們 去年削 減工資 20 % 的四分 之一。 」 

表 面看來 這算法 很合理 ； 但 跌幅是 基於一 個基數 （工人 之前的 工資） ， 而 今年的 
加 薪是基 於另一 個較小 的基數 （現有 薪酬水 平）。 

小小心 算即可 指出以 上是統 計誤算 。 為簡 單起見 ， 假 定原來 工資是 每小時 $1 ， 削 
減 20% 即是 下跌到 $0.8 。 $0.8 增加 5%gp 為 $0.04 ， 這是削 減額的 3/5 ， 不是! /4 。 



rate of surplus-value 

看 不清原 文的計 算方式 ， 籠 統譯之 。 
Shifting Base 



一如 許多誠 實謊言 ， 這 篇報導 誇大了 一個本 來很好 的故事 。 

這一 切說明 ： 要抵 消減薪 50% ， 下一次 加薪必 須爭取 100% 。 

「轉移 基數」 做成許 多折扣 的錯覺 。「五 折再 八折」 不 是原價 的三折 ， 而 是四折 ， 
因為 「八 折」 是以 較小的 「五 折價」 為基數 。 

一種 裝模作 樣的欺 騙手法 是把不 對號但 似乎相 關的東 西相加 。 一代 又一代 頑童都 
用這一 套證明 他們不 用上學 。 

你 可能還 記得吧 。 一年 365 天 ， 減去 在床上 度過的 122 天 （三分 之一） ， 再減去 
飲 食時間 45 天 （每 天三 小時） 。 剩餘的 198 天 要扣了 90 天暑 假和其 他假期 21 

天 。 剩下來 的日子 甚至不 夠分配 給週未 。 

你可能 認為大 企業不 會利用 這古老 和明顯 的伎倆 ， 但 美國汽 車工會 堅持汽 車企業 
依然 用這一 套來對 付他們 。 

每一 次罷工 期間都 會出現 這謊言 ： 汽 車企業 聲稱罷 工每天 的損失 是若干 百萬美 
元 。 這 數字來 自如罷 工工人 全力工 作會製 造出來 的汽車 ， 加上 供應商 的損失 。 一 
切可 能的被 加進來 ， 包括 銷售商 的損失 。 

同 樣奇怪 的概念 是百分 比可以 自由加 在一起 。 《紐約 時報》 書評版 這樣說 ： 書價 
和作 者收入 之間的 差距越 來越大 ， 是由 於生產 和材料 成本大 幅上升 。 在 過去十 
年 ， 廠房 及製造 費用上 升多達 10-12% ， 材 料上升 6-9% ， 銷 售及廣 告開支 向上攀 
升超出 10% 。 只 是一間 出版社 ， 這些林 林總總 加起來 至少有 33% ； 較小規 模的出 
版 社幾近 40% 。 

其實 ， 如果 每個成 本項目 上漲約 10% ， 總 成本必 然也以 10% 同樣比 重攀升 。 把各 
項 成本的 增加叠 加起來 ， 是鬼 話連篇 。 今天你 買了二 十種日 常用品 ， 發現 每種都 
比 去年價 格上漲 5% ， 會否 有人大 聲疾呼 ： 「生 活成 本增加 了一倍 ！ 」 

這 就像路 邊小販 解釋他 的兔子 三明治 如何能 賣得這 麼便宜 。 「我 必須滲 一些馬 
肉 ： 一 隻兔子 的肉滲 入一匹 馬的肉 。 」 

工會反 對一位 「聰明 笨伯」 老闆 定義每 小時平 均工資 ： 正 常工時 每小時 $1.5 ， 加 
班 每小時 $2.25 ， 周 末加班 每小時 $3 ， 共 三小時 得出平 均每小 時工資 $2.25 。 這有 
意 思嗎？ 



混淆 「百 分比 percentage 」 和 「百 分點 percentage point 」 是容 易墮入 的陷阱 。 如 

投資的 利潤從 去年的 3% 攀升至 今年的 6% ， 可以低 調只是 「增加 三個百 分點」 ， 
或是大 事張揚 「增加 了百分 之百」 。 特別是 民意調 查最常 利用這 種手法 。 




10% W. 50%, 70% 00% 

20% 40% 6U% 8(W6 

正態分 佈的百 分位數 

百 分位數 percentile 是統 計術語 ， 容 易騙人 。 這基本 上是將 一組數 據從小 到大排 

序 ， 並計 算相應 的累計 百分位 ， 某百分 位所對 應數據 的值就 稱為這 百分位 的百分 
位數 。 例如 代數班 有三百 名學生 ， 按 各人成 績排序 ， 百 分位數 99 是成績 最佳前 
三名 ， 其後三 位是百 分位數 98 ， 依 此類推 。 百分位 數有奇 怪而容 易混淆 的地方 ： 
百 分位數 99 的三 位學生 的成績 遠遠優 秀於百 分位數 90 的三位 ， 而在百 分位數 
40 至 60 的幾 十位學 生成績 可能幾 乎相等 。 這 是由於 世事萬 物的正 態排序 慣常呈 
鐘 形曲線 ： 最優 最劣只 佔少數 ， 大多 數趨向 中位值 。 

偶 爾統計 人員發 動内戰 ， 旁 觀者察 覺到事 有溪蹺 。 美 國鋼鐵 工會為 了爭取 改善待 
遇 ， 指出以 1939 年 為基數 ， 行業 的生產 力已大 大提高 ， 所 以鋼鐵 企業有 能力加 
薪 。 工會沒 有說明 因為特 別事故 ， 1939 年的產 量超低 。 企 業的欺 騙手法 也不甘 
示弱 ， 堅持員 工的總 薪資已 有上升 。 這 不是平 均時薪 ， 而 是全體 員工的 總收入 ， 
其中 包括許 多早期 以散工 身份加 入企業 ， 後來轉 為長工 的人員 ； 即 使工資 水平沒 
有上升 ， 這 麼多工 人的收 入必然 會增加 。 



《時 代》 雜誌 的圖形 一向精 益求精 。 這 張插圖 說明圖 表可以 
是 百寶袋 ， 任由勞 方資方 隨意抽 出所需 的證據 。 這插 圖其實 
是 表達同 樣數據 的兩張 插圖疊 加一起 。 

方 格圖顯 示工資 和利潤 （以十 億美元 為格線 比例） ， 很明顯 
兩者 都上升 ， 而去 年工資 的增長 是利潤 的兩倍 。 以 美元計 ， 
工 資增長 是利潤 的六倍 。 巨大 的通脹 壓力似 乎是來 自工資 。 

白底 插圖顯 示工資 和利潤 增加的 百分比 。 工 資線相 對平穩 ， 利潤 線大幅 度向上 。 
由此 可見通 脹壓力 主要來 自利潤 。 




你 可以得 出自己 的結論 ， 或 是更好 的看到 任何一 方都不 是通脹 的主因 。 能 夠及時 
簡 單地指 出爭論 的主題 不是表 面的非 黑即白 ， 已經有 助人們 理解。 

指 數數字 52 至 關重要 ， 影 響百萬 受薪族 的工資 。 因此 要提醒 各位這 也是任 人剪裁 
的。 

以最簡 單的例 子為例 ： 去年 ， 牛 奶每瓶 10 
便士 ， 麵包每 個也是 10 便士 。 今年牛 奶降價 
到 5 便士 ， 麵包是 20 便士 。 這說 明什麼 ？ 生 

活 成本是 漲了還 是降了 ？ 還是沒 有變化 ？ 



考慮 以去年 為基期 ， 把 當時價 格作為 100% 。 

Last year This year 

由於 牛奶價 格減半 (-50%) 而麵 包價格 翻了一 
倍 (+200%) ； 50 和 200 的平 均值為 125 ， 價 格漲了 25% 。 

再 試一次 ， 以今年 為基期 。 牛奶 本來是 現價的 
200% ， 麵包是 現價的 50% 。 去 年價是 今年的 
125% 。 



為了證 明成本 水平沒 有改變 ， 簡 單切換 為幾何 
平均值 53 ， 並以兩 個年份 為基準 。 這少 許有別 
於算術 平均值 ， 但 也是完 全合法 ， 並在 某些情 況下是 最有用 和啟發 。 要得 到三個 
數字 的幾何 平均值 ： 各 數相乘 ， 得出 立方根 。 四個 數字取 第四根 ， 兩個數 字取平 
方根 。 就 是這樣 。 

以去年 為基準 ， 價格 水平為 100 。 實 際是每 項乘以 100% ， 取其 平方根 ， 得出 100 。 
以今年 為基準 ， 牛 奶是去 年價格 50% ， 麵包是 200% ， 200 乘以 50 得出 10,000 ； 

其 平方根 100 即 是幾何 平均值 。 各項 價格沒 有上漲 或下跌 。 

事實是 儘管統 計有數 學基礎 ， 但既 是藝術 ， 也 是科學 。 在 這範圍 內有許 多操作 ， 
甚 至扭曲 。 通常 情況下 ， 統計學 家必須 選擇表 達事實 的方法 ， 這 是主觀 的過程 。 
在商業 現實中 ， 他不 太可能 選擇對 己不利 的方法 ， 一 如廣告 撰稿人 不會描 繪贊助 
商的產 品不堅 實和不 夠檔次 ， 他會 說輕巧 和經濟 。 

即使是 學術界 可能也 有偏差 （可 能無 意識） ， 特別想 證明某 這一點 。 





Index number 
geometric average 



這表明 我們要 三思統 計材料 ， 在報紙 和書籍 ， 雜誌 和廣告 的事實 和數據 。 但隨意 
拒絕統 計方法 也是沒 有意義 。 這 就像拒 絕閱讀 ， 因為 作家有 時用文 字來掩 飾事實 
和關係 ， 而 不是披 露公開 。 



補 充材料 



數據集 的誤區 

大量的 數據才 能得出 有效的 平均值 ， 並 準確預 測趨勢 。 一 萬人的 數據優 於一百 

人 。 只有 3-5 個 數值的 數據集 ， 得出的 結果並 不真實 。 

數 據集不 僅要很 大規模 ， 也要 很廣泛 。 地 質學家 調查沙 漠數據 ， 在 沙漠十 個不同 
地 點收集 100 個數據 ， 要比在 同一地 點收集 1,000 個數據 更準確 。 

有 兩個人 ， 有一 位雙腿 截斷了 。 無 論選擇 哪一種 平均值 ， 只 要不被 看出只 有兩個 
樣本 ， 那 麼就無 法辯駁 「人平 均有一 隻腳」 的結論 。 

有些調 查故意 這樣做 。 例如 ， 人口 統計想 要找出 男性更 傾向某 種職業 ， 那 麼只需 
要 調查男 性人群 。 

一些 小項調 査經常 錯誤地 把控制 集的調 查結果 等同普 遍結果 劃等號 。 小項 調査沒 

有 辦法調 査廣泛 、 隨 機的城 市人口 ， 學 院調査 經常方 便地面 向大學 生人群 ， 尤其 
是心 理學測 試實驗 。 即 使調査 報告說 明情況 ， 但新聞 機構為 了發表 聳人聽 聞的報 
道 ， 往 往把細 節模糊 ， 利 用院校 層次的 調査結 果來以 偏概全 。 

使用不 平衡的 數據集 撒謊的 做法非 常狡猾 。 技 巧是把 那些其 實並不 能相提 並論的 
數據 放在一 起比較 。 例如 ， 十 萬人口 的新城 鎮在十 年新增 一萬人 ， 比較原 本只有 
十 個居民 的小村 落在十 年增多 十個人 ， 那麼就 可以理 直氣壯 地總結 小村落 人口增 
長更快 。 

有 時市場 調査會 利用這 技巧來 發表銷 售數據 。 調 査蘋果 和橘子 的銷量 ， 但 是調査 
到了一 半橘子 由於存 貨不足 賣光了 ， 但 調査依 然繼續 ， 那麼 蘋果銷 量就會 遠遠高 
於橘子 ， 即 使蘋果 並不是 真的更 受歡迎 。 

解讀調 査數據 的誤區 

許多 事物的 因果關 係涉及 多個甚 至無數 的因素 ， 調查 往往不 能孤立 少數因 素以設 



計對照 組研究 。 

另 一方面 ， 這些複 雜關係 又方便 了調査 從中撮 出一些 有利本 身觀點 的結論 。 常見 

的統 計陷阱 是調查 測試包 含大量 應變項 (dependent variable) ， 方便 找出一 個有利 

自 己的似 是而非 的因果 關係。 



第十章 如何 反 駁統計 的 謊 t 



最後一 章解釋 如何看 透虛假 的統計 ， 如 何從中 找出可 信可用 的統計 。 

不是 所有眼 見的統 計訊息 可以訴 諸化學 分析或 踏實研 究的誠 實測試 。 以下 五個簡 
單問題 有助找 出答案 ， 避 免受騙 。 

(一） 誰的 統計？ 

要尋找 的第一 個答案 是偏見 ： 進行 調查和 發表結 果的一 方有什 麼動機 ？ 實 驗室是 
為 了理論 ， 名聲還 是收費 而去證 實什麼 ？ 報章 是否追 求銷路 ？ 勞資 雙方是 否要鼓 
吹 某個工 資水平 ？ 

留 意故意 的偏誤 。 這可 能是直 接的錯 誤陳述 ， 可 能是模 稜兩可 的不明 確聲明 ， 可 
能是選 擇有利 數據和 忽略不 利數據 ， $ 專換測 量單位 （例如 選擇有 利的數 據作比 
較） ， 可能選 用不適 合的計 量單位 （例 如採用 平均數 ， 而中 位數能 披露較 翔實或 
更多 訊息） ， 以沒有 說明的 平均數 掛羊頭 賣狗肉 。 

公 司宣布 3,003 人 持有公 司股票 ， 平 均持有 660 股 。 這 是真實 的數據 ， 但 沒有說 

明三位 大股東 已持有 總股票 數量四 份之三 ， 另外三 千人共 持有餘 下的四 份之一 。 

要留 意無意 的偏見 ， 這 往往是 更危險 。 在 1928 年 ， 許多統 計學家 和經濟 學家發 
佈圖表 和預測 ， 證明經 濟繁榮 ， 無 視經濟 結構中 的裂紋 。 

面 對這些 「證 據」， 至少 要一看 再看是 誰發表 這些統 計數據 ， 無論 是聲名 顯赫的 
政界 、 科學 實驗室 、 甚 至大學 。 報 導引述 ： 「某 某大學 研究發 現…」 ， 要注 意的不 
是 「某 某大學 研究發 現…」 ， 而是誰 在引述 ， 因為 引述的 結論往 往是作 者之言 ， 
不一 定是某 某大學 的結論 。 

《芝加 哥商業 期刊》 大事公 告該期 刊調查 169 間企業 有關對 抬高價 格和囤 積居奇 
的結果 ： 三 分之二 企業宣 布他們 面對遠 東地區 的加價 ， 是一 如既往 由企業 吸收消 
化部份 。 期刊說 （每 遇上這 些說話 ， 要加 倍留神 ！ ） ： 「調查 顯示這 些美國 企業沒 
有 追隨他 人提價 。 」 這是 明顯的 要質疑 ： 「是 誰這麼 說？」 由於期 刊可被 視為有 
利 害關係 ， 這也順 延到第 二個測 試問題 ： 



(二） 他怎麼 知道？ 



取樣 

期刊相 當取巧 ： 事實 是調查 對象為 1,200 間公司 ， 其中 9% 回答沒 有提價 ， 5% 有 
升價 ， 86% 沒有回 答問卷 。 調 查結果 是基於 有回答 問卷的 14% 。 

要 注意樣 本偏差 的證據 ， 選錯樣 本可能 是無心 ， 可能 是有意 。 上文 已提醒 ： 樣本 
是否足 夠的大 ， 足以 產生任 何可靠 的結論 。 

要 同樣小 心處理 報導的 相關性 ： 相 關性是 否夠大 ， 有重要 的意義 ？ 是否有 足夠的 
案例 賦予任 何意義 ？ 一般 讀者不 懂應用 顯著' 性檢驗 54 來確定 樣本是 否足夠 。 但許 
多報導 一眼就 能看出 （可能 要花點 時間） 是否 有足夠 案例足 以說服 任何有 理性的 
讀者。 

(三） 什麼不 見了？ 

即使資 訊來源 響噹噹 ， 如 沒有明 告有多 少個案 ， 已足以 引起合 理懷疑 。 同樣的 ， 
如提 到關連 性但沒 有給出 可靠性 的計量 （可 能誤差 ， 標準 誤差） ， 也足以 引起合 
理懷疑 ° 

提防 平均值 以及沒 有指明 的各種 平均值 ， 要知 道在很 多情況 ， 平均 數和中 位數會 
有很 大差別 。 

很多 數字沒 有意義 ， 因為沒 有比較 。 例如 「蒙 古症研 究發現 2800 個案例 超過一 
半的 母親是 35 歲或以 上」。 除非知 道婦女 一般生 兒育女 的年齡 ， 這 說法沒 有特別 
意義 。 很 少人知 道婦女 一般生 兒育女 的年齡 。 

另 一例子 ： 「衛 生部最 近公佈 的數據 顯示在 過去霧 霾天氣 的一周 ， 死亡人 數增加 
二百 八十人 。 」 死 亡人數 增加是 否與霧 霾有關 ？ 一 般的死 亡人數 是多少 ？ 下一週 
的死亡 人數會 否減少 ？ 是否 因為霧 霾加速 了某些 人死亡 ？ 「死 亡人 數增加 二百八 
十人」 引 人注意 ， 但由 於沒有 其他數 字比較 ， 意 義不大 。 

如只 給出百 分比而 沒有原 始數據 ， 小 心小心 。 很 久之前 ， 美 國約翰 霍金斯 大學有 
一 段有趣 的報導 ： 女大 學生有 W 與 教員共 諧連理 。 驚人的 百分比 。 原始 數據說 
得清楚 ： 許 多年前 ， 美 國大學 生只有 極少數 是女生 ； 當 年有三 位女生 ， 其 中一人 



tests of significance 



嫁 給教師 。 

多年前 ， 波 士頓總 商會的 「優秀 女性成 就獎」 宣稱 ： 十六位 名列名 人錄的 女士共 
有六十 個學位 和十八 名子女 。 這些個 人資料 看來頗 為紮實 ， 但原本 其中有 兩位奇 
人 ， 她們共 有三十 個學位 ， 而其 中一位 有子女 十二人 。 

留意指 數有許 多疏漏 ： 可能 是基數 。 勞 工組織 指出在 經濟衰 退後利 潤和生 產指數 
上升 快於工 資指數 。 指 數沒錯 ， 但沒有 說明前 者的基 數較低 ， 所以 經濟復 蘇時增 
加的百 分比幾 乎必然 是較高 。 

有 時指數 的缺失 是沒有 說明導 致變化 的因素 ， 有意或 無意暗 示是因 為一些 其他因 
素 。 今 年二月 的零售 數字低 於去年 ， 但沒 有指出 去年的 春節是 在二月 ， 今 年在一 
月 ° 

過去幾 十年有 關癌症 死因的 報告是 誤導的 ， 因為有 許多外 在因素 ： 以前對 癌症所 
知不多 ， 死因往 往列為 「死因 不明」 ； 現在有 更多死 因解剖 ， 診斷 更可靠 ， 醫療 
統 計數據 較齊全 ； 現代人 更長壽 ， 更多 人活到 容易患 上癌症 的年齡 。 如果 只看總 
死 亡人數 而不是 死亡率 ， 不要 忽視現 在的人 口比以 前更多 的事實 。 

(四） 是否 有改變 主題？ 

留 意原始 數據和 結論之 間是否 被轉移 ， 聲 東擊西 。 

正如上 文指出 ， 更多呈 報病例 並不總 是更多 人染病 。 測驗民 意的投 票並不 一定反 
映正 式投票 的結果 。 雜誌 讀者的 興趣調 查不擔 保他們 會從頭 到尾細 讀文章 。 

某年 ， 美 國加州 中央谷 地呈報 腦炎病 例大幅 度增加 ， 是去年 的三倍 。 很多 居民感 
到震驚 ， 把 子女暫 送外地 。 但死 亡數字 沒有很 大改變 ； 原來 是州政 府和聯 邦政府 
開始 投入資 源解決 這個長 期問題 ； 因 為他們 的努力 ， 發現許 多以往 被忽略 的低程 
度病例 。 

大家可 能留意 到在某 段時間 ， 報章特 多報導 某類型 的罪案 或事件 ， 感覺是 無曰無 
之 ， 但過 不了多 久又沉 寂下來 。 如仔 細追尋 ， 相關 的官方 數字沒 有增加 。 這只不 
過是 有一兩 位記者 當其時 特別多 這方面 的報導 ， 其他 記者不 得不追 隨其後 。 

英 國公共 工程部 調查六 千戶有 代表性 的家庭 ， 發 表報告 ： 「英 國男 士在夏 天平均 

每 週沐浴 2 次， 冬天 1.7 次 ； 女性是 2 次和 1.5 次」 ； 引來報 章頭條 報導英 國男士 

每 週沐浴 次數多 於女士 。 



這 些數字 要更令 人信服 ， 定要說 明是平 均數或 中位數 。 然而 ， 更嚴 重的弱 點是問 
題的 主旨已 經改變 。 調查 真正發 現的是 「人 們隨口 回答他 們的洗 澡次數 ， 而這不 
是反映 現實」 。 這是相 當隱私 的問題 ， 受訪 者要顧 全自己 的面子 （經 常沐 浴是良 
好的個 人衛生 習慣） ， 對調 查員給 出的答 案往往 不是實 際情況 。 

「離 題」 還 有更多 的品種 變化。 

《振興 農業》 調查發 現美國 農場比 五年前 增加了 五十萬 。 這 兩個相 應的數 字其實 
不是計 量同樣 的事情 ， 因 為調査 局改變 了農場 的定義 ， 新數 據包括 了舊定 義不涵 

蓋的 三十萬 個農場 。 

人口 普查發 現奇怪 的數據 ： 例如 三十五 歲的人 口不正 常地多 於三十 四歲和 三十六 
歲 的人口 。 查 究之下 ， 發現 數據是 根據家 人自報 ， 他 們傾向 把歲數 順便調 整為方 
便的五 的倍數 。 要解決 這問題 的方法 是要求 呈報準 確的出 生日期 。 

中國 某大區 「人 口」 是 28 萬， 五年 後升至 105 萬 。 這幅 度的增 長當然 有問題 ， 

深究 之下原 來兩次 調查是 為了不 同目的 ： 第一 次是稅 務普查 ， 第二 個為了 飢荒救 

濟 ° 

美國也 有一例 。 十年 一度的 人口普 查發現 65 至 70 歲 年齡組 高於十 年前的 55 至 
60 年齡組 。 移民 數字不 能解釋 這差異 。 主要 原因是 頗大數 量的受 訪者為 了領取 
社 會保障 金而虛 報年齡 ， 也有 可能是 之前為 了虛榮 心而少 報年齡 。 

美國參 議員指 責囚犯 的住宿 費用比 市中心 酒店還 要昂貴 ， 其 實是混 淆了囚 犯的整 
體管 理費用 ， 這包 括了監 獄人員 的薪俸 。 

各種事 後孔明 的廢話 是暗地 改變主 題的另 一方式 。 

還 有許多 「我是 第一」 的形式 。 幾 乎任何 事物都 可以宣 稱自己 是第一 ， 只 要不是 
太特別 的什麼 ° 

當 你考慮 直接購 買或分 期付款 ， 比較借 錢成本 會因為 「改變 主題」 而難 以比較 。 
百分之 六聽起 來像百 分之六 ， 但可能 不是真 的如此 。 向銀 行借貸 100 元 ， 利率 
6% ， 一 年內每 月清還 利息約 3 元 。 但大 多數汽 車貸款 標榜的 「每百 元利息 六元」 
其 利率實 為雙倍 ， 不容 易明白 。 

更糟 糕的是 美國的 冷凍食 品計劃 。 粗心 的買家 被告知 「6-10%」 的數字 。 這聽起 



來 是利息 ， 事實並 非如此 。 這 是還款 的數字 ， 更糟糕 的是這 往往是 以六個 月計算 ， 

不 是一年 。 100 元價格 的食品 ， 每 月還款 12 元 ， 等同真 正利率 48% 。 難 怪有這 

麼多客 戶拖欠 ， 食 品計劃 要結束 。 

有時候 會以語 義來改 變主題 。 《商業 周刊》 的報導 ： 會計 師決定 「過 剩」 是討厭 
的詞語 ， 提 出企業 資產負 債表不 再採用 ， 改為 「留存 收益」 或 「固 定資產 增值」 。 

(五） 是否有 意義？ 

「是否 有意義 ？ 」 往往 能夠把 基於未 經證實 假設的 整個繁 瑣統計 回歸應 有地位 。 
Rudolf Flesch 提出文 章可讀 性公式 ： 簡單和 客觀計 算單詞 和句子 的長度 。 以數字 
取代無 法估量 的論述 ， 以 算術取 代判斷 ， 這是有 吸引力 的想法 。 至 少僱用 作家的 
人 ， 如報紙 出版商 ， 甚 至許多 作家本 身都應 該注意 。 公式假 設字詞 的長度 決定可 
讀性 。 這 是否故 意刁難 ， 還有 待證明 。 Robert A. Dufour 利 用這公 式評審 一些文 
獻 ， 頗為得 心應手 ， 有助 判斷一 篇文章 、 一 本著作 是否比 較難讀 。 

許 多統計 數字表 面上已 是虛假 ， 只因 為數字 的魔力 令人忘 卻了常 識而蒙 混過關 。 
Leonard Engel 的 多篇雜 誌文章 列舉了 幾個醫 療案例 。 

一個例 子是著 名的泌 尿科專 家計算 美國有 八千萬 前列腺 癌病例 - 足以涵 蓋易感 
年齡 組的每 位男性 ！ 另 一例是 神經科 醫生估 計每十 二名美 國人有 一人患 有偏頭 
痛 ； 因 為偏頭 痛佔慢 性頭痛 病例三 分之一 ， 這 意味人 人每一 季度會 患上失 能性頭 
痛 。 還有 一個例 子是經 常提到 的二十 萬宗多 發性硬 化症病 ， 但死亡 數據表 明這種 
病例 不會超 過三至 四萬宗 。 

關於 修改社 會保障 法一直 飽受各 種形式 的聲明 ； 如 未經仔 細考證 ， 這些聲 明各有 
各 的道理 。 論點 之一是 既然預 期壽命 只有約 63 年 ， 退休年 齡訂為 65 歲是 虛假和 
欺 詐行為 ， 因為 幾乎每 個人都 在這之 前死亡 。 

只要 看看你 認識的 人就可 以反駁 這論點 。 基 本謬誤 是這數 字是指 出 生時的 預期壽 
命 ， 因此大 約有一 半嬰兒 可以預 期活到 65 歲 。 順便 說一句 ， 這數 字來自 1939-41 
年期間 ， 已經過 時但仍 然使用 。 經過 一代人 後計算 ， 目前 的預測 數字是 69.7 歲 ； 
這個新 數字同 樣愚蠢 ， 幾乎每 個人現 在活到 65 歲 。 

多年前 ， 一間大 型家電 公司的 產品規 劃是基 於出生 率下降 ， 長久以 來已被 認為是 
理 所當然 。 規劃要 求重視 小電器 ， 適合公 寓大小 的冰箱 。 策 劃者之 一突然 回歸常 
識 ： 他放 下圖形 和圖表 ， 轉而留 意自己 和同事 、 朋友 、 鄰居和 舊同學 ， 除 了少數 
例外都 有三、 四個孩 子或是 計劃大 家庭。 這重新 啟動沒 有成見 的調查 和製圖 - 該 



公司很 快轉向 最有利 可圖的 大戶型 。 



赫 然精確 的數字 往往違 背人們 的常識 。 紐約 市報紙 報導一 項研究 ： 與家人 同住的 

在職 婦女每 週生活 所需是 40.13 元 。 任 何有常 識的讀 者會意 識到生 活成本 無法計 
算 到最後 一分錢 。 但是 40.13 元比 「約 40 元」 更動聽 ， 更 是可怕 的誘惑 。 

外推法 55 是 有用的 ， 特別 是所謂 預測趨 勢的占 卜形式 。 看著 這些數 字和從 中衍生 
的圖表 ， 必 須記住 ： 至 今的趨 勢可能 是事實 ， 但未來 趨勢只 不過是 有些見 識的猜 
測而矣 。 隱含的 意思是 「一 切因素 不變」 和 「 目前 的趨勢 繼續」 ， 但世事 偏偏不 
會保 持不變 ， 否則 人生會 很無聊 。 

不受控 外推法 的廢話 ， 電 視趨勢 是例子 。 在最 初五年 ， 美國 家庭的 電視機 數量以 
百 倍增加 。 依此趨 勢推論 ， 再 過五年 會有幾 千萬部 ， 大概 每家有 四十部 。 



1948 年美 國總統 選戰預 測是統 計史的 大笑話 。 選舉 前的各 項民意 調查大 多預測 
共和黨 候選人 Tom Dewey 獲勝 。 結果 是民主 黨杜魯 門得票 49% 勝出 。 蓋 洛普選 

舉預測 被稱為 「人 類歷 史上最 公開的 統計誤 差」。 

專 家分析 民調出 現偏差 的原因 ， 結 論有三 ： 調 査抽樣 偏離了 代表性 、 民 調提早 
一星 期結束 ， 沒 能反映 最後時 刻的民 意變化 ， 以及 政治偏 見妨害 了編輯 的客觀 
立場 。 當年報 社老板 多為共 和黨人 ， 報紙 挺共和 黨的當 然較多 。 56 



相對 於一些 未來人 口預測 ， 這已 是準確 的典範 。 近至 1938 ， 總統 的專家 委員會 
深信美 國人口 永遠不 會達到 1.4 億 ； 十二年 後這數 字已是 1.52 億 。 這些可 怕的低 

估源 於假設 趨勢將 繼續沒 有變化 。 



1874 年 ， 馬克 • 吐溫 總結了 外推法 的廢話 ： 



在一 百七十 六年間 ， 密 西西比 河下游 縮短了 242 英里 ， 即是 每年平 均縮短 1 
^ 英里 。 依 此推論 ， 一 百萬年 前的密 西西比 河下游 足足有 一百萬 英里長 ， 
像釣 魚桿伸 出了墨 西哥灣 ， 也可以 推論七 百四十 二年後 ， 密西 西比河 下游將 
只有 1 糾 英里。 科學 真有趣 。 只需投 入少許 事實就 可以得 出這樣 的回報 。 



Extrapolation 

改寫自 http:〃hk.crntt.com/crn-webapp/mag/docDetail.jsp?coluid=36&docid=102284142&page=4 



附錄 



香港 大學民 意調查 的爭論 



( 自學 書院註 ： 在翻譯 這本小 書期間 ， 香 港正好 有一場 有關民 意調査 的筆戰 ， 也正 好印證 民調和 
統計的 重要意 義和容 易陷阱 〔正 反雙 方皆如 是〕。 事緣香 港特首 57 不是 全民選 舉產生 ， 無 從得知 
究竟 有多少 選民屬 意他領 導香港 ， 於是 定期民 意調査 是各方 關注的 寒暑表 。 香港大 學民意 研究計 

劃和香 港中文 大學亞 太研究 所的定 期民調 最為各 方關注 。 現 任香港 特首梁 振英自 2012 年 7 月就 
任以來 ， 民 望一直 在所謂 合格線 (50) 徘徊 。 為此 ， 行 政會議 58 議員張 志剛向 香港大 學民意 研究計 
劃發炮 ， 引來 一場不 大不少 的筆戰 。 奇怪 的是亞 太研究 所的民 調結論 也是差 不多的 「不 合格」 ， 
但梁粉 〔梁 振英 粉絲〕 沒有為 此著墨 。 輯錄這 幾篇文 章頗多 香港文 體用語 ， 請享用 。 ） 

港大民 研發放 特首及 問責司 局長民 望數字 

2014 年 3 月 11 日 〔 香 港大學 民意研 究計劃 〕 新 聞公報 

特 別宣佈 

在 促進學 術研究 和理性 討論的 基礎上 ， 香 港大學 民意研 究計劃 （ 民研 計劃） 今日 
在發 放各項 民望數 字之餘 ， 更加把 關鍵原 始數據 上載到 《香 港大 學民意 網站》 ， 
包括特 首評分 、 被訪 者性別 、 年 齡組別 、 以及加 權指數 。 這種 透明度 ， 已 經超過 
一般學 術與專 業要求 ， 希望 社會人 士珍惜 。 學者 專家使 用及引 用有關 數據時 ， 請 
按 照學術 慣例列 明出處 。 

• 下載原 始數據 ： 2014 年 3 月 11 日公 布之特 首評分 

公 報簡要 59 

民研 計劃在 2014 年 3 月 3 至 6 日 期間， 透 過真實 訪員以 隨機抽 樣方式 ， 成功以 
電 話訪問 1,017 名香 港巿民 。 調 査顯示 ， 特首 梁振英 的最新 支持度 評分為 47.5 
分 ， 支 持率為 25% ， 反 對率為 56% ， 民望淨 值為負 31 個 百分比 ， 跟兩星 期前變 
化不 大。… 根據民 研計劃 的標準 ， 梁振 英屬於 「表 現失 敗」。 在 95% 置信 水平下 ， 
各 項百分 比的最 高抽樣 誤差為 +/-4 個 百分比 ， 評分及 支持率 淨值誤 差另計 ， 調査 
的回 應率為 66% 。 

注 意事項 ： 

[1] 《香 港大 學民意 網站》 的 網址為 http : 〃hku P0P .hk U .hk ， 傳媒可 到網站 參閲調 査細節 。 

[2] 調査之 樣本為 1,017 個成 功個案 ， 並非 1,017 乘以 回應率 65.9% ， 過去有 不少傳 媒在報 導上犯 

了上 述錯誤 。 



香港 特別行 政區行 政長官 （又 稱特 區首長 • 俗 稱特首 ； 英語 ： Chief Executive) 
Executive Council ' 即 是特首 「内 閣」。 

這 項定期 的民意 調査涵 蓋香港 特區行 政長官 （特首 ） 和主 要官員 的民望 。 為方 便閲讀 ， 附錄略 去有關 主要官 員部份 。 



[3] 95% 置 信水平 ， 是 指倘若 以不同 隨機樣 本重複 進行有 關調査 100 次 ， 則 95 次的 結果會 在正負 
誤 差之内 。 傳 媒引用 本調査 的評分 數字時 ， 可 以註明 「在 95% 置信 水平下 ， 各項評 分誤差 不超過 
+/-1.8 ， 百分 比誤差 不超過 +/-4% ， 淨 值誤差 不超過 +/-6%」 。 由 於民研 計劃在 2014 年引人 「反覆 

多重加 權法」 處 理數據 ， 交 接期間 ， 各項 數字變 化的差 異是否 超過抽 樣誤差 ， 是基 於同類 加權方 
法處理 後的結 果計算 。 換言之 ， 2014 年第一 次所得 數據是 否與上 次調査 存在顯 著差異 ， 是基於 
兩組 數據同 樣經過 反覆多 重加權 後作出 的比較 ， 而非 單從公 佈數字 表面運 算得來 。 
[4] 因為調 査存在 的抽樣 誤差及 處理數 據的捨 入過程 ， 數字 不能過 份精確 ， 合計數 字亦未 必完全 
準確 。 因此 ， 傳 媒在引 用有關 調査的 百分比 數字時 ， 應避 免使用 小數點 ， 在引 用評分 數字時 ， 則 
可以使 用一個 小數點 。 

[5] 調 査數據 並非透 過音頻 互動系 統取得 ， 倘 若調査 機構以 「電腦 隨機抽 樣電話 訪問」 或 類似文 
字 來掩飾 音頻互 動調査 ， 是 不專業 的做法 。 

最 新數據 

民研 計劃今 日發放 特首梁 振英及 各問責 官員的 最新民 望數字 。 2014 年起 ， 民研 
計劃 把以往 按照年 齡及性 別分佈 進行的 簡單加 權方法 ， 改良 成為按 照年齡 、 性別 
及教 育程度 （最 高就讀 程度） 分佈的 「反 覆多重 加權」 方法調 整數據 。 今 天公佈 
的最 新數據 ， 是按 照政府 統計處 提供之 2013 年底全 港人口 年齡及 性別分 佈初步 
統 計數字 ， 以及 2011 年人口 普查收 集之教 育程度 （最 高就讀 程度） 分佈 統計數 
字 ， 以 「反覆 多重加 權法」 作 出調整 。 現 先列出 最新調 查的樣 本資料 ： 



調 査日期 


總 樣本數 


回 應比率 


最 高百分 比誤差 161 


3-^2014 


1,017 


65.9% 


+/-3% 



[6] 有關 誤差數 字均以 95% 置信 水平及 整體樣 本計算 。 95% 置 信水平 ， 是指 倘若以 不同隨 機樣本 
重複 進行有 關調査 100 次 ， 則 95 次的結 果會在 正負誤 差之内 。 個別 題目如 果只涉 及調査 内若干 
次樣本 ， 百 分比誤 差會相 應增加 。 評分及 支持率 淨值誤 差則會 按照樣 本評分 及支持 率淨值 的分佈 
情況另 行推算 。 



由 於不同 題目涉 及調査 内不同 次樣本 ， 誤 差會相 應變化 。 下 列參考 數表籠 統列出 
樣本 數目與 最大抽 樣誤差 的關係 ， 方 便讀者 掌握有 關變化 ： 



樣 本數目 （不 論是 
總樣 本或次 樣本） 


百分 比誤差 【 7] 
(以 最高 值計） 


樣 本數目 （不 論是 
總樣 本或次 樣本） 


百分 比誤差 [71 
(以 最高 值計） 


1,300 


+/- 2.8 % 


1,350 


+/- 2.7 % 


1,200 


+/- 2.9 % 


1,250 


+/- 2.8 % 


1,100 


+/- 3.0 % 


1,150 


+/- 3.0 % 


1,000 


+/- 3.2 % 


1,050 


+/-3.1% 



900 


+/- 3.3 % 


950 


+/- 3.2 % 


800 


+/- 3.5 % 


850 


+/- 3.4 % 


700 


+/- 3.8 % 


750 


+/- 3.7 % 


600 


+/-4.1% 


650 


+/- 3.9 % 


500 


+/- 4.5 % 


550 


+/- 4.3 % 


400 


+/- 5.0 % 


450 


+/- 4.7 % 



[7] 以 95% 置信 水平計 。 

以下是 特首梁 振英的 最新民 望數字 ： 



調 查日期 


2-6/V14 


15/1/14 [8] 


18-22/1/14 


4-^14 


17-20/^/14 


3-^/14 


最 新變化 


樣 本基數 


1,018 


1,017 


1,014 


1,030 


1,031 


1,017 




整體回 應比率 


66.5% 


66.7% 


67.6% 


65.5% 


67.8% 


65.9% 




最 新結果 


結果 


結果 


結果 


結果 


結果 


結果 及誤差 [9] 




特 首梁振 英評分 


45.6 


48.9 [10] 


47.0 [10] 


47.9 


46.4 


47.5+/-1.5 


+1.1 


梁 振英出 任特首 支持率 


27% 


29% 


29% 


25% [10] 


23% 


25+/"3% 


+2% 


梁 振英出 任特首 反對率 


58% 


53% 關 


54% 


56% 


56% 


56+/-3% 




支持 率淨值 


-31% 


-24% [10] 


-26% 


-32% [10] 


-33% 


-31+/- 5% 


+2% 



[8] 是 次調査 為施政 報告即 時調査 ， 只問 及特首 評分及 支持率 。 



[9] 表中所 有誤差 數字以 95% 置信水 平計算 。 95% 置 信水平 ， 即是指 倘若以 不同隨 機樣本 重複進 
行有 關調査 100 次 ， 則 95 次的結 果會在 正負誤 差之内 。 傳媒引 用上述 數字時 ， 可 以註明 「在 95% 
置信 水平下 ， 評 分誤差 不超過 +/-1.5 ， 百分 比誤差 不超過 +/-3% ， 支 持率淨 值誤差 不超過 +/-5%」 ； 

以前 調査的 誤差數 值請參 閱網站 。 

[10] 該等變 化在相 同加權 方法下 超過在 95% 置信水 平的抽 樣誤差 ， 表示有 關變化 在統計 學上表 
面成立 。 不過 ， 數 字變化 在統計 學上成 立與否 ， 並 不等同 有關變 化的實 際用途 和意義 。 



【港人 短評】 解開特 首民望 「不 合格」 之謎 

2014-03-14 

港大 民意研 究計劃 的民調 早陣子 引起連 串質疑 ， 未知 是否有 見及此 ， 今次 港大再 
度公 布特首 評分時 ， 民 意網站 已出現 所謂的 「原始 資料」 ， 雖然相 關檔案 的格式 
要 以特定 軟件才 能打開 ， 但 內裡所 刊載的 正正是 評分分 布數字 。 



特首民 望點解 晤合格 



民調 應公正 做法 須公平 



總評分 人數為 
998 人 



383 

分 50 分以下 



六成人 俾合格 都冇用 
咁樣計 ， 點 會合格 ？ 



依據港 大最新 的民調 ， 以 100 分 為滿分 ， 
特 首僅獲 47.5 平均分 ， 當 然就被 評為不 
合格了 。 然而 ， 只要 打開原 始資料 ， 就會 
發現 998 個評 分者中 ， 原來 有多達 615 
人、 即逾 6 成 人均給 予特首 50 或 以上的 
合 格分數 ， 其 中更有 29 人給予 100 分 ； 
僅有 383 人給予 50 以下 的評分 。 那麼 ， 
為 何特首 的評分 又會不 合格呢 ？ 最大 的問題 在於有 91 人 個受訪 者給予 0 分， 就 
是 這些極 端評分 ， 令特首 的平均 分大幅 度拉低 。 



當中俾 0 分 
有 91 人 



就 因為俾 91 個 0 分 
平均 分慘被 拉低到 47.5 ！ 




然而 ， 這 種意義 甚為重 要的評 分分布 ， 港大 方面卻 未有主 動公布 ， 而只是 藏在民 

意網站 的暗處 ， 若 非主動 尋找及 裝有特 定軟件 ， 根本無 法知曉 ！ 這 種藏頭 露尾的 
安排 ， 實 在無法 不令人 懷疑民 調背後 的用意 ， 即使 不是存 心誤導 ， 但這又 是否一 
個公 正持平 的民調 機構所 應採用 的發布 方式呢 ？ 



收 集及公 布數據 必須高 度透明 

要知 道的是 ， 民調 機構如 何採用 、 公布 、 以至 運用收 集回來 的數字 ， 對最 終的民 
調結果 又或市 民觀感 均起著 決定性 的影響 。 如 此看來 ， 香港 確實有 必要有 更多獨 
立的 機構進 行民調 ， 並要高 度透明 地公布 收集到 的數據 ， 以 助市民 大眾通 過比較 
獲 得真象 。 



張志剛 6 ° ： 六 成二給 特首打 50 分或 以上說 明什麼 ！ 



陳莊勤 先生在 2 月 8 日於 《明 報》 以 〈沉 默的 螺旋〉 為 題撰文 ， 對 現時中 大亞太 
所和港 大民意 研究計 劃所做 的特首 評分提 出質疑 。 重點就 是機構 只公布 平均分 ， 
但打分 分數的 分佈卻 不清楚 ， 只 靠一個 平均分 ， 根本 無法知 道事情 的真象 。 而本 
人上 周撰文 ， 指出單 靠一個 平均數 ， 其實 就是瞎 子摸象 。 一般 的研究 ， 除 了平均 
數之外 ， 多會公 布眾數 （最多 人打的 分數） 、 中位數 ， 以及 50 分以上 的比率 。 當 
時 本人大 膽推測 ， 眾數 和中位 數都是 50 ， 給 特首打 50 分或 以上的 應該超 過一半 。 
文章見 報當日 ， 港 大民意 研究計 劃也公 布了最 新的一 次特首 的評分 ， 評分為 
47.5 ， 而港 大也第 一次以 附錄形 式把所 有評分 的原始 數據同 時公布 ， 這也 是解決 
了 陳莊勤 和本人 過去一 直提出 的質疑 。 因為 附錄必 須要以 SPSS 軟件才 能打開 ， 

一 般媒體 都不具 備這種 統計分 析的專 用軟件 ， 所 以沒有 引起廣 泛關注 和報道 。 當 
我 們打開 這個原 始數據 檔案時 ， 馬上真 相大白 。 陳莊勤 不用估 ， 本人也 不用猜 。 

港大首 次公布 所有原 始數據 

港 大把給 0 分到 100 分的 頻率全 部公開 ， 可 以說是 非常公 開透明 。 為方便 表述解 
釋 ， 現 把分數 組合成 10 分一組 ， 一共 10 組 ， 評 分分佈 見附圖 。 

經運 算之後 ， 得 出這樣 的結果 。 平 均分是 47.5 ， 眾數是 50 ， 中位 數也是 50 ， 給 
50 分 或以上 的高達 61.8% 。 看完 那些評 分分佈 以及這 4 個重 要指標 ， 我們 不需要 

再瞎 子摸象 ， 象的 形狀完 全出現 於我們 眼前了 ！ 

平 均分是 47.5 ， 一般 人的印 象就是 不合格 ！ 但 如果看 50 分以上 和以下 的比例 ， 
在那 998 個 給特首 打了分 數的人 ， 有 28% 的 人打了 50 分， 給 50 分以 上的有 34% ， 
那評 50 分以 上的比 率就是 62% ， 比 49 以及 以下的 38% ， 多出 一大截 。 當 62% 香 

港 市民給 特首打 50 分或 以上時 ， 這 是合格 還是不 合格？ 一些聳 人聽聞 的講法 ， 
例如 民望破 產之類 ， 又從 何說起 。 

把平 均分拉 到只有 47.5 分 ， 最大的 原因是 大約有 9% 的受訪 者打了 0 分 。 本人之 
前 撰文也 解釋過 ， 行政 長官的 施政有 必然的 兩面性 ， 無論政 策多好 ， 都會 有一些 
人 不滿意 。 雙辣招 有八成 人支持 ， 但還 有兩成 人反對 ， 某程 度是利 益之爭 ， 持有 
多個投 資物業 的人就 不支持 ， 地產 經紀也 不支持 ， 迷信絕 對自由 市場的 不支持 。 
因 為支持 雙辣招 而支持 特首的 ， 可能給 60 分 ， 但反 對雙辣 招的就 可能打 0 分 。 
這 種給行 政首長 的評分 ， 就不 能和讀 書考試 相比擬 ， 資質 良好 、 讀 書用功 的同學 ， 



60 張志剛 ， 香港行 政會議 （相 等於 内閣） 成員 ， 現任智 庫組織 「• -國兩 制研究 中心」 總裁 。 張志剛 畢業於 香港中 文大學 ， 
分別 獲授學 士及碩 士學位 ， 文章 常見於 本港各 大傳媒 ' 著有 《悲劇 ， 悲 香港》 及 《風雨 聲中》 等書 。 

61 原文 刊載於 《明 報》 MM 年 3 月 18 日 



可 以科科 取得優 異成績 ， 甚至做 10A 狀元 。 但行政 首長推 行政策 ， 一定有 得有失 ， 
結 果也只 會把平 均分拉 向中間 。 如果 不看分 佈和其 他指標 ， 就 只會以 偏概全 ， 甚 
至錯 下判斷 。 

極端 10% 主 導輿情 

除 了看那 50 分和以 上佔了 62% 的重 要數據 ， 我 們不妨 再把那 10 組 的分數 逐一研 
究 ， 0 分到 9 分的有 10.5% ， 這 是最極 端反對 梁先生 的一群 。 但 10 到 19 分的卻 
只是 1.8% ， 20 到 29 分的 也只有 3.9% 。 從分 佈來看 ， 這不算 是正常 的分佈 ， 有 
點 「惡 之欲 其死」 的味道 ， 到 30 和 40 分 的兩組 ， 才回 復正常 ， 逐步 回升到 8.9% 
禾口 13.1% 。 

給 50 分 或以上 的分佈 ， 就算 是正常 分佈最 多的是 50 到 59 分 ， 佔了 30.7% ， 愈 

高分 數的比 例愈低 ， 逐 步減少 ， 沒 有出現 10 分和 20 分組 別近於 斷層式 的分佈 。 
而這一 成給予 0 到 9 分 的群組 ， 相信也 是最主 動發聲 ， 最積 極參與 激烈行 動的一 
群 。 當媒 體的目 光讓這 一成人 吸引着 ， 所 謂輿情 ， 便傾向 了這最 極端的 10% 。 50 
分以上 的組群 ， 他們 相對平 和理性 ， 政 府施政 ， 他們心 中有數 ， 但 沒有參 與激進 
的 意見表 達活動 ， 他們就 成為了 沉默的 大多數 。 但 當大學 訪問員 來電時 ， 他們就 
把自 己的評 價說出 ， 但不 幸的是 ， 他們 的評分 又給那 9% 給零分 的人拉 低冲淡 ， 
如果沒 有把所 有得分 公之於 世的一 日 ， 這 些沉默 大多數 的一群 ， 永遠沒 有見到 「 真 
象」 的一日 ， 也永 遠讓那 極端的 10% 去主 導輿情 ， 和代 表民情 ！ 

這 種錯誤 的代表 ， 不僅 是把民 情扭曲 ， 也 形成了 陳莊勤 先生撰 文中所 提及的 「 白 
色恐怖 的寒蟬 效應」 。 支持梁 先生的 ， 支 持特區 政府的 ， 都以 為自己 是少數 ， 這 
令到 他們變 得沉默 和冷漠 ， 這 也是反 政府群 體最希 望見到 的後果 和現象 。 看完這 
堆 港大公 布的原 始數字 ， 真 相大白 於人前 ， 支持梁 先生的 ， 支 持特區 政府的 ， 不 
是少數 ！ 這說 明過去 一年半 的政策 走對頭 ， 證明特 區政府 官員的 「勤力 用心」 ， 
市 民是看 在眼裡 。 

如 果要正 確的政 策可以 走下去 ， 可以開 花結果 有成績 ， 不僅 是需要 巿民打 一個分 
數 ， 更是要 他們表 達意見 ， 更是 要他們 站出來 ！ 



張志剛 ： 50 分應是 「兩分 概念」 




50 分是 「兩分 概念」 • 即合 
格與 晤合格 • 但港大 民調加 
入 「一 半半」 • 就將 這個分 
布變成 「三 分」 • 分 為合格 
(51 至 100 分） 、 晤合格 (0 至 49 
分） - 同埋 中間既 「一 半半 」 
(50 分） ' 



對 於港大 民意研 究計劃 主任鍾 庭耀解 

釋 ， 民 調中的 50 分代表 「一 半半」 ， 即 
非合格 ， 亦非 不合格 ， 一 國兩制 研究中 
心總 裁張志 剛表示 ， 以 0 到 100 分給分 
本來 是一個 「兩分 概念」 ， 即合 格與不 
合格 ， 但港 大民調 加入了 「一 半半」 ， 
就將 這個分 布變成 「三 分」， 即 分為合 
格 (51 至 100 分） 、 不合格 (0 至 49 分）， 
以及 中間的 「一 半半」 (50 分) 。 但 他質疑 ， 問題是 ， 此 「三 分」 並非 「對等 分配」 ， 
而市民 亦未必 能一下 子把兩 種概念 分清楚 。 



但 問題像 • 呢個 「三分 」 晤 
像對 等分配 。 而市民 亦未必 
能一下 子把兩 種概念 分清楚 • 



張志剛 

一 國兩制 研究中 心緦裁 



練乙錚 ： 打 棍無效 •• 網小 子放倒 「巨 人」 張志剛 



知 識不等 於力量 ， 但 如果缺 乏知識 ， 就可以 很悲慘 。 無論 在哪裡 ， 若統治 階級充 
斥 不學無 術之輩 ， 社會大 方向要 出問題 。 這裡說 的知識 ， 當 然不是 「公婆 皆可有 
理」 的看 法認知 ， 而 是客觀 的學問 。 如果不 僅是不 學無術 ， 還是 別有心 術的話 ， 
這 個統治 階級無 可藥救 。 



臥 虎藏龍 

政改攤 牌漸近 ， 當權派 集結力 量圍攻 鍾民調 。 先是政 協委員 、 恒地 副主席 李家傑 
發飆 ， 公 開指摘 鍾氏經 常在關 鍵時刻 發布對 特府或 北京不 利的民 調結果 ， 操弄民 
意 ， 為反對 派開路 。 跟着 ， 梁 派網站 《港人 講地》 發 表編輯 室文章 〈解開 特首民 
望 「不 合格」 之謎〉 ， 指 鍾氏在 最近的 一個關 於特首 民望的 民調裡 取巧運 用數據 
說謊 ， 把一 個好端 端成績 亮麗的 特首說 成多數 人視為 「不 合格」 。 然後 ， 梁派悍 
將、 行 會成員 張志剛 高調發 言並在 本周二 《明 報》 撰文 ，引 用上述 網文核 心内容 ， 

質 問鍾氏 「六 成二給 特首打 50 分或 以上說 明什麼 ？ 」 【註 1】 

結果 ，「六 成二給 特首打 50 分或 以上」 說明了 《港人 講地》 編輯室 文章有 「小 小」 
搞錯了 基本統 計方法 ，而 「國 師」 張 志剛懵 然不知 （ ？ ） 並 加小手 腳發揮 ， 結果 
鬧 大笑話 。 

最 先指出 《港人 講地》 文 章和張 志剛說 法有好 幾個嚴 重初等 錯誤的 ， 是一 篇又一 
篇 的網上 及新媒 體文章 ， 作者都 懂統計 ， 卻 是傳統 媒體裡 不見經 傳的業 餘評論 
者 ， 可 謂小孩 大衞打 死巨人 高利亞 ， 亦可謂 ： 網 絡世界 ， 臥 虎藏龍 。 本文 將這些 
材 料整理 ， 歸納 所指出 的謬誤 ， 並加若 干己見 ， 給大 家參考 。 

首 先指出 ， 張志 剛文章 （下稱 「剛」 文） 的標 題數字 「6 2 %」 ， 與 《港人 講地》 
編輯 室文章 （下稱 「講」 文） 同源 ， 是一個 發水或 抽水幾 近一倍 的數字 。 「抽 水」 
是 指抽了 民 調回應 者當中 大批態 度完全 中立人 士的水 ， 把他 們捆綁 到梁特 的支持 
者那邊 ， 便 成功創 制出上 述那個 發水標 題數字 。 過程中 ， 還 擅自替 民調加 上一個 
不適當 的概念 ， 對 所導致 的矛盾 和足令 梁特尷 尬的結 論卻諱 莫如深 。 

張 志剛的 「62%」 發水 63 近一倍 

在港 大鍾氏 民調裡 ， 特首 「 民望」 數字 的給定 範圍是 0-100 ， 内含 101 個整數 ， 
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發水 ： 滲 水發大 



50 分居中 。 訪 問到的 998 個回應 者當中 ， 有 383 個 給特首 打的分 數低於 50 分 ， 
280 個 50 分， 335 個高於 50 分 。 鍾民調 事先給 受訪對 象說明 ： 「 0 分」 為 「絕 
對 唔支持 」 ， 「 50 分」 定義是 「 一半半 」 ， 100 分則為 「 絕 對支持 」 。 

因此 ， 對統計 者而言 ， 必 須嚴格 尊重那 280 個打 50 分 者的中 立態度 ， 既 不能把 
他 們擺到 383 個 不支持 者那邊 ， 亦 不可將 他們與 335 個 梁特支 持者放 在一起 ； 但 
是， 「講」 文捆 綁抽水 好自便 ， 把打 50 分 或以上 的訪問 對象加 在一起 （「一 半半」 
+ 支持） ， 一算 ： （280+335) 户 98 = 62% ， 好亮麗 ！ 

然 後張志 剛就用 這個數 字說事 ， 雄 辯地問 ： 這 個數字 「是 合格還 是不合 格？」 
這就 有趣了 。 因為這 個算法 如果說 明特首 民望是 「嚴 重地 合格」 ， 那麼 ， 我們同 
樣可 以把那 280 個態度 中立打 50 分 的受訪 者加到 「不支 持者」 那邊 （「一 半半」 
+ 唔支持 ） ， 算出 （ 280+383 ) ^98 = 66% 。 那不就 表示梁 特民望 應該是 「 更 嚴重地 
不 合格」 了麼？ 

矛盾 兼尷尬 ！ 正 如一篇 網文題 目所說 ： 「你 玩統計 ， 統計 玩你」 。【註 2】 
任何 公平的 統計人 ， 不會像 「講」 文那樣 ， 抽那 些回應 「一 半半」 的態度 中立人 
士的水 ， 而 只會用 33^98 = 34% 這 個數字 ， 代 表在原 始數據 裡支持 梁特的 回應者 
比率 。 這 個數字 ， 固然比 不上發 水幾近 一倍的 「62%」 ， 與 不支持 梁特的 回應者 
比率 38^98 = 38% 相比 ， 也 差一截 。 如此 ， 張 志剛更 應該雄 辯地問 問自己 ： 34% 
這 個數字 ， 「是合 格還是 不合格 ？ 」 

為 何說事 者可如 此便給 ， 大 抽態度 中立人 士的水 ？ 因 為中間 做了幾 近無縫 的概念 

轉移 。 

政治態 度中立 今 「合 格」 今 「支 持」 

大家如 果留意 ， 當 可察覺 「講」 、 「剛」 二文 其實歪 曲了該 次鍾民 調裡的 「50 分」 
的定義 ， 把政治 態度上 的中立 （「一 半半」 ） 巧妙 地改成 「合 格」 。 然而這 個民調 
裡的 50 分 ， 並非 是一個 「合 格線」 。 

「合 格」 的 標準人 人不同 。 例如 ， 筆者 當年念 的大學 ， 合格 線因教 授而異 ； 念津 
貼小學 的時候 ， 學校 的合格 分數是 60% ； 中 學則是 40% ， 入讀後 ， 老父不 滿名校 
的標 準反而 那麼低 ， 筆者 卻認為 好得很 ， 因為 可減輕 功課做 不好給 老父指 罵時的 

「殺傷 力」。 

然而 ， 更重 要的是 ， 合格 和支持 不支持 ， 其實 沒有必 然關係 一例如 ， 某醫 學院專 
科生以 40.1% 的 分數合 格畢業 ， 你支 持不支 持這位 仁兄當 你的心 臟手術 醫生？ 



「講」 、 「剛」 二 文先將 「50 分」 擅自 定義為 「合 格」 （與民 調對象 回答問 卷時的 
指定意 義不同 ） ， 然後 再把這 個他們 引入的 「合 格」 概念 等同民 調裡的 「支 持」， 
這般偷 換概念 之後就 可靜雞 雞進行 上述捆 綁抽水 。 如此 ， 「剛」 文 就可大 剌剌地 
說： 「評 50 分以 上的比 率就是 62% ，比 49 ( 分） 以及 以下的 38% ， 多出 一大截 。 」 

(注意 ： 「 50 分 以上的 比率是 62% 」 起碼 應該是 「 50 分或 以上」 罷 ？ 但 連這個 「或 」 
字也 省掉了 。 ） 如 此逐步 深入細 緻地做 群眾的 思想擺 布工作 ， 不是 第一次 ， 大概 
也不 會是最 後一次 。 

事實上 ， 港大 民研計 劃已再 三聲明 ， 「50 分」 與 「合 格」 完 全無關 ， 指的 是態度 
上 的中立 。 當然 ， 可以有 另外的 民調專 講合格 不合格 ， 但這 個梁特 民望民 調本身 
不 適宜講 ， 硬要講 ， 就會出 現上面 的既矛 盾也讓 梁特相 當握尬 的結論 。 這 個民調 
只研 究特首 民望的 平均分 數高低 ； 得 出一個 平均分 數之後 ， 合 格與否 ， 讀 者可憑 
個人 喜好各 自解讀 。 大概 有些人 ， 就算 梁特民 望拿個 1 分 平均分 ， 也會認 為他是 
合格的 ； 邏輯上 ， 這沒 有問題 ， 但如 果濫用 民調原 始資料 特別炮 製一個 「62%」 
來說事 ， 就 有問題 。 

剔除給 0 分的 ！ 保留給 100 分的 ！ 

所說 何事呢 ？ 原來， 「講」 、「剛 」 二文說 ， 既有 「62%」 這個亮 麗數字 ， 而鍾民 
調 最後竟 把梁特 的平均 民望評 分算為 47.5 ， 必是 因為鍾 民調沒 有把打 0 分 的那些 
「極端 分子」 一即 統計學 上說的 「離群 數據」 （outliers) —剔除 。 於是 ， 他們就 

可結論 ： 鍾民調 不科學 。 這 裡有三 個問題 。 

首先 ， 如果要 剔除給 0 分者 ， 也應該 剔除給 100 分者罷 ？ 但 張志剛 口中振 振有辭 
的那 個發水 「62%」 ， 卻 隱蔽地 包含了 29 個 「100 分」； 這是 「打 茅波」 。 

其次 ， 已 經有專 家算出 ， 把回 應分數 最高和 最低的 10% (含 所有 「0 分」 和 「100 
分」） 都 剔除後 ， 梁 特民望 平均值 也好不 了多少 ： 48.1 分， 救 不了他 ； 用 張志剛 
的話說 ， 依然 「 不合格 」 。 如此 ， 大動干 戈為的 顯然不 是兩個 平均分 48.1 - 47.5 = 
0.6 分之差 ，因為 「剛」 文 對此提 都不提 。 那麼 ， 要剔除 91 個 「0 分極端 分子」 ， 

目 的何在 ？ 不 外起哄 ， 令不 諳統計 學的人 「覺 得」 鍾民 調無理 。 但 請繼續 看無理 
的 是誰。 

第三 ， 回 應分數 值既限 在整數 0 與 100 之間 ，而 0 與 100 分 在民調 裡都有 清楚而 
具 體定義 ， 那麼 ， 根本 就不應 剔除回 應值為 0 或 100 的那 些數據 ， 因為那 些數據 

已經不 能算是 「離群 數據」 ， 而是 民調設 計者特 別指明 、 更 要知道 的數據 ； 理論 

上 ， 0 分甚 至可能 是對象 回應中 的一個 「眾 數」 （ mode) 而 意義尤 其重要 【註 3】 。 
事實上 ， 在該項 民調裡 ， 給 0 分的 91 個回應 ， 佔 998 人 的幾乎 10% ， 相 當於給 



50 分的 280 個 回應人 數的三 分之一 ； 這許多 回應者 ， 怎可 以看成 都是該 從統計 
數字裡 「槍 斃」 掉的呢 ？ 就 看未加 權的評 分分布 ， 我 們也可 以猜到 ， 這個 分布是 
雙 眾數的 （ bimodal distribution ) ， 兩 個眾數 分別為 2 80 分和 0 分， 因為的 確有很 

多人對 梁特極 之不滿 ； 若取 消了這 部分人 的數據 ， 那 就不是 今天的 香港了 。 統計 
學不應 、 也 不允許 那樣搞 出河蟹 。 

由 此看出 ， 不科學 的不是 鍾民調 ， 而 正正是 《港人 講地》 編 輯室和 張志剛 。 
心術問 題之外 還有技 術問題 

「講」 、 「剛」 二文 ， 還 犯了一 個技術 性錯誤 ： 「62%」 這 個數字 ， 是拿了 鍾民調 
的 原始數 據做了 小手腳 就急不 及待用 來說事 的結果 ， 不知 道人家 有統計 學的章 
法 ， 就是 對原始 數據適 當加權 ， 之後 才能用 以作統 計運算 和分析 。 這 裡說的 「加 
權」 指 什麼？ 

大 家知道 ， 民 調研究 的對象 人口總 數太多 ， 不能全 部訪問 ， 只能抽 樣取板 
(sampling) ， 但 每一個 隨機樣 板中的 個體特 徵分布 如年齡 、 性別等 ， 都 不能準 
確反映 總人口 中的已 知分布 ， 此即 所謂的 「樣板 誤差」 ； 如果 所調查 的民意 （如 
對 梁特的 態度） 與年齡 、 性 別等特 徵有關 ， 樣板便 需加工 ， 而統計 學用的 標準加 
工工序 ， 是 一個加 權工序 。 筆者 借用近 日 一篇 網上流 傳很廣 、 署名 SweetSourPork 
(「咕 嚕肉」 ） 的 《輔 仁網》 文章 裡的具 體解釋 ， 稍作修 改如下 ： 

「 如果 今次電 話訪問 ， 有 41.5% 嘅 受訪者 係男性 ， 但係原 來香港 人口有 45.4% 
嘅人 係男性 ， 比 受訪者 入面嘅 男性多 ， 咁 我哋就 要將樣 板入面 嘅男性 嘅比重 
加多啲 ， 平衡番 ， 等數 據可以 代表香 港市民 。 」 【註 4 】 

不做 這個加 權工序 ， 樣板 誤差可 令民調 的統計 分析毫 無意義 。 這是民 調統計 
ABC 。 「咕 嚕肉」 於是用 了鍾民 調的原 始數據 並作適 當加權 ， 重新再 算一遍 ， 證 
明鍾 民調算 出的梁 特評分 平均數 47.5 沒有錯 ， 錯的 是這裡 又犯了 基本統 計方法 
大漏的 《港人 講地》 和 張志剛 ： 那個 已經包 含抽水 、 概念僭 建兼打 茅波的 「 62%」 ， 
也是未 經加權 處理的 （雖 然因為 前三個 犯規動 作太大 太離譜 ， 這第 四個謬 誤相對 
而言已 顯得不 那麼重 要）。 

大 家看看 ， 一個 飽含四 個大錯 漏那麼 豐富的 「數 字」， 尊貴 的行會 成員視 為至寶 ， 
雄 辯滔滔 用來攻 擊對準 鍾民調 。 那 不是很 可笑嗎 ？ 這種學 養的人 ， 放在本 朝特府 
内外 「智 庫」 裡 打棍子 很稱職 ， 安插 在行會 ， 則說到 底有損 其他大 部分成 員的面 
子 和心理 。 港大 民意研 究計劃 成立於 1991 年 ， 二十 多年來 ， 鍾民 調的學 術功架 
已經十 分嫻熟 ， 任憑當 權派怎 樣抹黑 ， 亦 不能把 他撼倒 。 最近 這次圍 剿攻勢 ， 網 
民 當中的 專家見 招拆招 ， 已經代 為瓦解 。 正如 筆者早 前提到 ， 鍾民 調完全 有資格 



成為 香港又 一尊屹 立不倒 的圖騰 。 



【註 1】 李家 傑言論 http : 〃 Z h. W ikipedi a . 0rg / W iki/ 李家傑 。 《港人 講地》 編輯 室文見 
http://speakout.hk/index.php/2013-ll 

-04-09-33-0^2013-12-21-08-43-2^1424-2014-03-14-10-38-16 。 張志 剛文見 
http://news.mingpao.com/201403iymsa.htm 。 

【註 2】 見 「陳 電鋸」 的文童 http:〃www.chainsawriot.com/archives/9292 ； 此文用 另一統 計加權 
方法 （iterative sample bootstrapping) ， 算 出梁特 的平均 評分為 46.3 ， 比鍾 民調的 47.5 稍低 。 

【註 3】 關於離 群數據 ， 網文 〈勿 因蟲 廢言〉 有很好 的討論 ： 

http://aloneinthefart.blogspot.co.nz/2014A)^blog-post 15.html ； 作 者指出 ， 一 般而言 ， 問卷 回應若 

不 設有效 頭尾限 （例如 100 與 0) 而是可 以正負 很大數 以至無 限的話 ， 離群 數據才 有明顯 的潛在 

不 良作用 ， 應 該剔除 。 文章 分析頭 頭是道 ， 明顯 很在行 ； 其 上篇更 值得看 。 

【註 4】 「咕 嚕肉」 文章 〈港 大民 研特首 評分係 「被 拉高」 還是 「拉 低」 ？ 〉 ， 用 典型香 港話寫 ， 
解 釋統計 過程深 入淺出 ， 見 http://www.vimedia.com.hk/articles/2014A33/15/66322 。 不過 ' 文章的 

加權評 分分布 圖所表 達的概 念不對 一應該 是加權 在人而 不是加 權在分 ， 雖然 算出的 總平均 分一樣 
是對的 。 



羅耕 ： 低水準 的批評 64 

昨文 看過鍾 庭耀的 特首評 分調查 ，給 50 分 （或） 以 下終較 50 分 （或） 以上多 。 

港大 民意研 究計劃 2014 年 3 月 3-6 日特 首評分 
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說很 多極端 分子給 0 分嗎 ？ 一樣有 不少給 100 分 。 難道 全都要 剔走嗎 ？ 觀乎分 
布 ， 可能 根本有 些人想 給超過 100 分 ， 甚 至有更 多人想 給負分 ， 只 是限於 0-100 
無 可奈何 。 如此 hit bound 的 tri-modal ， 用眾數 ( mode) 表達 是無甚 意思的 ， 因 

這很 可能是 w ) 的正 態分布 。 假使 調查的 50 分水 嶺改為 0 而兩 端不限 ， 
大概未 必會見 到這三 峰現象 。 

在平均 （ mean ) 、 中位 （ median ) 及 眾數三 種中央 趨勢描 述而言 ， 若是量 化數據 ， 
最可取 是平均 。 當平均 有機會 被極端 數字大 幅拉高 /低時 ， 才 用中位 ， 譬 如入息 
分布 。 然而 ， 特首評 分限於 0-100 ， 無極 端數字 ， 故不宜 用中位 。 只有 interior 
multi-modal 下 ， 以眾數 表達多 個中央 趨勢才 有意思 。 至 於張志 剛指的 
inter-quartile range ， 更不 必了 。 

數據 是否正 態分布 ， 其 實可以 Jarque-Bera normality test 測試 ， 詳 情可上 維基看 
看 。 用原始 數據不 難算出 ， 」B statistic 值達 386 ， 顯 然呈正 態分布 。 

批評鍾 庭耀的 ， 看來要 重新上 基本統 計課了 。 
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麥國華 ： 民調 科學與 藝術' 



回歸 十多年 ， 特首 民望時 常被傳 媒打造 成各具 含義的 大標題 放在顯 眼位置 ， 製造 
話題 。 如果說 傳媒為 了吸引 眼球而 以文字 渲染民 調結果 尚可理 解的話 ， 那 麼一間 
理應 中立的 學術機 構若真 的選擇 性公布 某些調 査數據 ， 發 布引導 性結論 ， 就實在 
令 人為學 術自由 擔心。 

近日 ， 港 大民意 研究計 劃遭揭 發只公 開有關 特首支 持度的 「平 均分」 ， 而 隱瞞原 
來 有六成 市民認 為特首 「及 格」 的事實 ， 備 受批評 與質疑 。 然而 ， 更讓人 為之瞠 

目 的是民 研計劃 負責人 的反駁 。 他辯稱 「從來 不會用 50 分等於 及格去 解釋」 ， 並 
稱 50 分只 是代表 「中 間意 見」。 

支 持程度 本就是 一種相 當感官 化的心 理狀態 ， 將其量 化為具 體數字 ， 難免 存在個 
人理解 的因素 。 問卷 設計者 確可自 行詮釋 不同數 字含義 ， 此問 卷亦將 50 分定義 
為 「一 半半」 ， 然 該負責 人過往 曾解釋 「50 分以下 等如不 及格」 ， 又何能 自圓其 
說 。 加上某 些自詡 為香港 良心的 媒體也 常以此 為標準 ， 疾呼特 首民望 不及格 ， 大 
部分市 民早被 引導視 50 分為特 首民望 「及 格」 的 界線。 

面 對質疑 ， 該 些媒體 的反應 更是令 人心痛 香港社 會理智 的流失 。 有媒 體強調 ， 揭 
出 特首有 61% 支 持的是 「梁 粉」 ， 暗 示背後 存在政 治目的 。 一頂 「梁 粉」 帽子就 
可否定 一切證 據事實 。 如此因 人廢言 ， 和文 革時期 不問觀 點證據 ， 單憑背 景立場 
就批鬥 廝殺有 何不同 ？ 

很多 平日鼓 吹公義 平等的 「道德 衞士」 們 ， 攻擊政 府時高 高舉起 ， 現在面 對涉嫌 
違 反公義 的事情 卻又輕 輕放低 ， 彷 彿事情 只是橋 下流水 ， 其雙重 標準也 應予詬 
病 。 倘若 被指民 調欠缺 公允的 是中央 政策組 或建制 派的民 研機構 ， 恐怕早 已屍橫 
遍野了 。 只感嘆 ， 民調可 以選擇 地公平 ， 社會公 義也可 以選擇 地分配 。 

捍衞學 術自由 

捍衞學 術自由 ，政 府、 市民、 政黨和 學術界 都有不 可推卸 的責任 。 民調的 目的在 
於 通過對 大量樣 本的問 卷調查 來客觀 、 精確 地反映 社會輿 論或民 意動向 。 民調結 
果會 為政府 所參考 ， 從 某種程 度上可 影響政 府施政 、 市 民心態 及社會 大環境 。 因 
此 ， 市民 有權利 要求民 研計劃 本着嚴 謹的學 術研究 態度進 行調查 ， 全面客 觀地公 
布結果 ， 讓 公道回 歸人心 。 遺 憾的是 ， 統 計是一 門科學 ， 對統 計數字 的詮釋 ， 卻 
是一 門藝術 。 
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公說 公有道 ， 婆說 婆有理 ？ 

「梁 粉」 批 評如下 ： 

依據港 大最新 的民調 ， 以 100 分 為滿分 ， 特 首僅獲 47.5 平均分 ， 當然就 被評為 
不 合格了 。 然而 ， 只要 打開原 始資料 ， 就 會發現 998 個評 分者中 ， 原來 有多達 
615 人、 即逾 6 成 人均給 予特首 50 或以 上的合 格分數 ， 其 中更有 29 人給予 100 
分 ； 僅有 383 人給予 50 以下 的評分 。 那麼 ， 為 何特首 的評分 又會不 合格呢 ？ 最 
大 的問題 在於有 91 人 個受訪 者給予 0 分 ， 就是 這些極 端評分 ， 令 特首的 平均分 
大幅 度拉低 。 

「主 場新聞 網站」 及香港 大學民 意研究 計劃研 究經理 李偉健 則反駁 ： 
評 論指有 91 個 0 分樣本 「拉 低」 平均分 ， 沒 有提到 29 個 100 分樣本 同時會 「拉 

高」 平均分 。 港大 民意計 劃研究 經理李 偉健向 《主場 新聞》 解釋 ， 民望調 査詢問 
受 訪者給 予官員 0 分至 100 分 的評分 ， 相信受 訪者誠 實回答 ， 無論 樣本是 0 分或 
是 100 分， 都應納 入計算 ， 除非是 101 分 ， 在數 值範圍 之外才 會剔走 。 

李偉 健強調 ， 歷 來民望 調查同 樣沿用 這方法 ， 公布按 評分計 算算術 平均值 
(Arithmetic Mean) ， 「沒 有篩走 特別低 、 特別高 的評分 。 」 

開 門見山 。 我認為 「梁 粉」 的 批評有 其道理 ， 但其為 己方所 作辯解 ， 一樣 有問題 。 
另 一邊廂 ， 「港大 民研」 的統計 方法也 有毛病 。 

Lies, damned lies, and 梁粉' s statistics 

統計 數字不 會說謊 ， 它有的 只是統 計偏差 。 說謊的 ， 是運用 它的人 。 "Lies, damned 
lies, and statistics" 這 句名言 ， 就 是用來 諷刺那 些蓄意 運用統 計數字 來製造 假像的 

人 。 前述 「梁 粉」 的批評 ， 正好 拿來作 「統 計語言 偽術」 的最 佳範例 。 

從 「特 首民望 調查」 所 得到的 998 個有 效評分 ， 平 均分為 47.4 (「港 大 民研」 
公布 數字為 47.5 ， B 各 有不同 ， 這是因 為他們 按受訪 者的統 計特徵 作加權 平均） ， 
低於 50 ， 但 實際上 998 個分 數當中 ， 有 615 個為 50 分 或以上 ―. 至此 ， 梁粉 

都沒 有說錯 。 然而 ， 他們沒 說的是 ： 

998 個分 數當中 ， 也有 663 個為 50 分 或以下 。 

感覺混 淆嗎？ 或者這 樣說吧 ， 998 個分 數當中 ， 有 383 個低於 50 分 ， 280 個 
等於 50 分 ， 335 個高於 50 分 。 分 數的分 布如下 ： 



Histogram of df$CE_rating 
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從 0 到 100 ， 共有一 百零一 個整數 ， 而 50 正 好居中 。 梁粉 試圖以 「50 分或以 

上」 這個 標準來 描繪一 個梁振 英有超 過六成 人支持 的景象 ， 可是 據他們 的邏輯 ， 
我 們同樣 可以說 ，以 「50 分或 以下」 這個標 準來判 斷的話 ， 有超過 六成人 （而 
且這個 「超過 六成」 的人 數比起 梁粉的 「超過 六成」 更多） 反對 梁振英 ！ 

我不 明白一 眾梁粉 何以如 此介懷 47.5 這個只 略低於 50 的數字 。若是 選舉的 
話 ， 兩 三個百 分點也 許是勝 負關鍵 ， 可是像 印象分 這種雖 非玄學 ， 卻也 「不 算精 
密 科學」 的東西 ， 47.5 和 50 ， 實在沒 有分別 。 換 了我是 梁振英 ， 看到如 此數字 ， 

高 興還來 不及呢 。 

離 群值與 平均數 

梁 粉指出 ， 998 個分 數當中 ， 有 91 個是 0 分 ， 這 些極端 評分拉 低了整 體的平 
均數。 這是正 確的。 「主 場」 卻反驳 梁粉， 說他們 沒提及 樣本當 中亦有 29 個 100 
分 ， 會有拉 高平均 分的相 反效果 ， 也同 樣正確 ， 亦再 一次顯 示梁粉 玩弄輸 打贏要 
的 統計語 言偽術 。 

然而 ， 撇除 梁粉的 拙劣技 倆不談 ， 若樣本 中可能 有不少 「離 群值」 （outliers) 的 

話 ， 到底 我們應 該如何 估計統 計母體 群的平 均數？ 

港大民 研的李 偉健指 「無論 樣本是 0 分或是 100 分 ， 都 應納入 計算」 。 就 一般統 
計調 査來說 ， 這 是過時 的做法 （但 此處 有一個 catch ， 要押 後談） 。 現代 統計學 
認為 「穩 陣」 （robust) 的做法 ， 本網 誌之前 的書評 其實已 經提過 ， 就是利 用截尾 
平均 （trimmed mean) ， 也就是 先截去 最高和 最低的 5-10% 數據 ， 然後才 計算平 

均數。 

可 是我們 幾乎可 以斷言 ， 在 「特 首民望 調查」 中 ， 無 論用普 通的算 術平均 ， 抑或 
用截 尾平均 ， 都 不會有 大分別 。 原 因是一 般來說 ， 離群 值最有 殺傷力 的情況 ， 是 
母體 群數字 本身為 「無 界」 （unbounded) 的時候 。 是項調 查當中 ， 有效的 評分本 
身有界 （只 可介 乎零至 一百） ， 離群值 的影響 通常不 會太壞 ， 故 此梁粉 的批評 ， 
抓不到 統計學 的重點 。 



實際上 ， 若截去 今次樣 本當中 ， 高 低各一 成的數 據的話 ， 得出來 （未經 加權） 的 

截尾 平均為 48.1 ， 與樣本 平均數 47.4 相 去不遠 。 



尺 度不同 ' 分數如 何換算 ？ 

這倒 不是說 「特 首民望 調查」 無問題 。 印象中 ， 港大 民研所 做的民 意調查 ， 大部 
份 （例 如立法 會選舉 的選前 調查和 exit polls) 都 很紮實 。 然 而此項 「特 首民望 
調 查」， 卻非常 礙眼。 我很想 問鍾庭 耀一句 ： How on earth is this rating meaningful? 

單單 叫受訪 者為梁 振英打 個分數 ， 已經很 有問題 。 問 卷只提 過零分 （「絕 對唔支 
持」 ）、 五十分 （「一 半半」 ） 與 一百分 （「絕 對支 持」） 的意義 ，中間 的尺度 （scale) ， 
人 人卻不 同細分 。 你 我各給 六十分 ， 意思未 必相同 。 你的 分數如 何換算 成我的 ， 
完全 木宰羊 。 現時港 大民研 的做法 ， 實 際上假 設了所 有人的 評分尺 度均一 。 由此 
引 起的模 型風險 （model risk) ， 無 法評估 。 舉 個例說 ， 若你 看到梁 振英的 「民望 
指數」 比 上月高 ， 你 可能以 為他真 的愈來 愈受市 民歡迎 ， 但 實情可 能是他 的民望 
無變 ， 只是 今個月 的受訪 者的評 分尺度 較寬鬆 ， 對 無甚特 別感覺 的官員 ， 也傾向 
打 一個高 分而已 。 

就算是 奧運體 操項目 ， 評分 有較多 稍為客 觀的細 項憑依 （動 作要求 、 難度 、 時限 
等等） ， 仍 不時惹 人爭議 ， 各人對 特首表 現的評 分尺度 ， 又怎可 能大致 一樣？ 

不 知尺度 ， 何 論變化 ？ 

好了 ， 就 假設香 港有一 個平均 的評分 尺度吧 。 套用 經濟語 言來說 ， 就當人 人都用 
一 個一致 「市 場評分 尺度」 好了 ， 但為何 我們可 以計算 平均分 ？ 平 均數並 不一定 
是有 意義的 。 一半人 給零分 ， 另 一半給 一百分 ， 借用時 下流行 語來說 ， 是 社會撕 
裂 的狀況 ； 所有 人都打 五十分 ， 卻 更似人 人認命 。 兩種 情況截 然不同 ， 平 均分都 
是 五十分 ， 那麼五 十分究 竟是甚 麼意思 ？ 

以上例 子當然 太極端 ， 極 端到與 雷鼎鳴 對堅尼 系數的 批評如 出一轍 。 假若 港大民 
研只是 拿這個 平均分 來判斷 粗略民 情的話 ， 上一 段的批 評是不 適用的 。 問題是 ， 
港大民 研對待 這個平 均數時 ， 彷彿 其精密 數值或 它幾個 百分點 的變化 ， 有 甚麼微 
言大 義似的 。 然而 ， 即 使香港 有一個 「市 場評分 尺度」 ， 我 們仍不 知道這 個尺度 
是甚 麼樣子 。 同樣是 跌十分 ， 從一 百跌至 九十分 ， 是否跟 六十跌 至五十 ， 或十跌 
至零同 樣大鑊 ？ 木宰羊 。 五 十分所 代表的 「一 半半」 ， 和 「及 格」 是同樣 意思嗎 ？ 

木宰羊 。 不及 格的話 ， 甚 麼分數 才算民 怨沸騰 ， 很 想梁振 英辭職 ？ 木宰羊 。 

不知 背後的 評分尺 度的話 ， 再精 密的數 字都是 沒用的 。 弄 得好像 很精密 ， 反而令 
人 誤以為 該數字 很科學 ， 其細微 變化很 有意義 。 



離群值 真是離 群值嗎 ？ 

前 面說過 ， 以普 通的算 術平均 來估計 母體群 平均數 ， 乃過 時做法 。 諷 刺的是 



• 對 「特 首民望 調査」 來說 ， 由於 整把由 零至一 百分的 量尺中 ， 只有零 、 五 
十及一 百有清 晰意義 ， 所 以這三 個分數 ， 比 其他分 數可靠 。 

• 故此 ' 吊詭地 ， 0 和 100 兩個 離群值 ， 反而不 應剔除 ° 

• 結果梁 粉針對 離群值 的批評 ， 意外地 不適用 。 

• 若硬 要計算 平均數 ， 普 通的算 術平均 ， 此 處亦反 而比截 尾平均 更恰當 。 
然而這 不表示 港大民 研的做 法正確 。 正 正因為 他們採 用了語 意不明 的尺度 ， 才造 
成這 許多奇 怪狀況 。 

|p^— ： less is more 

如前述 ， 港大民 研的民 意調查 ， 一般都 很紮實 ， 但這項 「特 首民望 調查」 ， 用粵 
語來 說的話 ， 真係 「畀 位人 插」。 "Less is more" 這句 說話聽 來陳套 ， 但此 處適用 。 
奉勸 Robert Chung ， 還 是乾脆 將問卷 問題改 成簡簡 單單的 「你 想唔 想梁振 英繼續 

執政」 之 類好了 ， 不 要再搞 那些懶 細緻的 評分吧 。 

縣二： 廢話 去死' 自 由萬歲 

最後且 談文字 ， 不 談統計 。 梁粉謂 ： 

港大 民意研 究計劃 的民調 早陣子 引起連 串質疑 ， 未知 是否有 見及此 ， 今次 港大再 
度公 布特首 評分時 ， 民 意網站 已出現 所謂的 「原始 資料」 ， 雖然相 關檔案 的格式 

要 以特定 軟件才 能打開 ， 但 內裡所 刊載的 正正是 評分分 布數字 。 

這不是 廢話嗎 ？ 有甚 麼檔案 是任何 軟件都 可以打 開的呢 ？ 何 況所謂 「特定 軟件」 
和檔 案格式 ， 也 不過是 統計佬 慣用的 SPSS 與它的 sav 格式吧 。 不想付 鈔的朋 
友 ， 可用免 費的自 由軟件 R 打開有 關檔案 。 

相 關網頁 

• The R project for statistical computing 

• 2014 年 3 月 11 日 新 聞公報 ； 香 港大學 民意研 究計劃 

• 下載原 始數據 （SPSS 的 sav 格式） ： 2014 年 3 月 11 日公 布之特 首評分 
• 民情 指數方 法說明 （Pdf) ； 香 港大學 民意研 究計劃 

伸 延閱讀 

• 電鋸 ， 你 玩統計 ， 統 計玩你 ： 「 問 題根本 不在於 0 和 100 等等 outliers ' 

而是佔 人口比 重較多 的組群 對梁振 英評分 較低。 」 



請鍾庭 耀回應 請關焯 照澄清 /文： 張志剛 

(明報 ） 2014 年 03 月 25 日 

由前 周鍾庭 耀公布 了特首 評分的 原始數 據之後 ， 就引 起廣泛 的分析 和討論 ， 這其 
實 是好事 。 學 術機構 的行為 ， 理應 面對公 眾批評 ， 不要隨 便就以 「抹 黑」 和 「打 
壓」 視之。 而關 焯照先 生等也 寫了一 篇專文 ， 提出不 同意見 ， 個人 在此嘗 試把事 
情詳 細再分 析一遍 。 關先 生和其 他有興 趣的人 士可以 詳細閱 讀思考 ， 往後 可以再 
作交流 或者當 面討論 。 

整件 事件似 是複雜 ， 但如作 有條理 的梳理 ， 其實不 難掌握 。 關鍵是 鍾庭耀 的特首 
評分 ， 有沒 有合格 的概念 和應用 。 此關 鍵一解 ， 往後 就是大 路一條 。 

鍾 庭耀在 3 月 19 日接受 《信 報》 訪問 ， 指出 「50 分是 中位數 ， 不 能演繹 成正向 
或負 向數字 ， 從來 不能說 50 分 合格」 。 

鍾庭耀 的解釋 ， 涉及兩 個問題 ， 一是這 種評分 ， 有 沒有合 格纓尸 X 格 的概念 。 二 
是 如果有 ， 又應 該幾多 分合格 。 

鍾庭耀 的評分 ， 其實 做了很 長歷史 ， 太遠 的不說 ， 就從回 歸談起 ，也有 17 年。 
這 17 年來， 媒 體從來 都以合 格纓尸 X 格的 概念來 報道特 首評分 ， 而 且都以 50 
分 為合格 。 香港 媒體事 業發達 ， 每次數 字一出 ， 電視 、 電台 、 報 章都踴 躍報道 ， 
這合 格纓尸 X 格詞語 ， 出 現起碼 100 次 。 鍾庭耀 每月起 碼做一 次調查 ， 1 年 12 
次 ， 加 起來就 過千次 。 17 年來， 少說也 報了一 兩萬次 。 如 果鍾庭 耀認為 這個調 
査根本 沒有合 格纓尸 X 格 的概念 ， 那 在過去 1 萬多次 的報道 ， 鍾庭 耀為什 麼不挺 
身而出 、 撥 亂反正 ？ 就在前 周公布 原始數 據之後 ， 得出評 50 分或 以上有 六成二 
人 的結果 ， 鍾庭 耀才急 忙表態 ， 認為沒 有合格 不合格 ， 又或者 50 分不能 視為合 
格之說 。 

曾 被引述 50 分為及 格水平 

香港 的記者 、 編輯 ， 多是有 識之士 ， 他 們一個 錯不奇 ， 個個 都出錯 ？ 他們視 50 
分 為合格 ， 固然 是憑自 己的固 有認知 ， 而鍾庭 耀自己 也有不 可推卸 的責任 。 因為 
他仙 人指路 ， 他本人 就是如 此演繹 。 本 人的一 位同事 用了一 個下午 的時間 ， 在慧 
科電子 剪報捜 尋過去 10 多 年的相 關報道 ， 找到 以下這 些材料 。 請記着 ， 這些報 
道是直 接經訪 問引述 或直述 鍾庭耀 的分析 ， 而 不是媒 體自己 的報道 。 如果 只計媒 
體報道 ， 那是成 千上萬 ， 不必 在慧科 電子剪 報捜尋 。 



《蘋果 日報》 2010 年 8 月 11 日： 「 民 意研究 計劃總 監鍾庭 耀分析 ， 按曾 蔭權的 

民望表 現而論 ， 他的 民望屬 『表現 失敗』 。 雖然 他的評 分有輕 微上升 ， 仍 可以維 
持在 略高於 50 分的及 格水平 。 」 

《頭條 日報》 2010 年 7 月 28 日： 「該 研究 計劃總 監鍾庭 耀表示 ， 雖然曾 蔭權評 
分 脫離肥 佬行列 。 」 （註： 評分為 S0.3 分） 

《星島 日報》 2 00 4 年 10 月 I 3 日： 「 鍾庭耀 認為他 （ 楊永強 ） 的 支持度 保持穩 
定 ， 比其歷 史低位 39.4 分高 出很多 ， 但仍 未達到 50 分的及 格水平 。 」 

《星島 日報》 2004 年 9 月 29 日： 「鍾庭 耀分析 ， 調 査結果 顯示董 建華的 民望評 
分兩 年來首 次重上 50 分水平 。 」 

《信 報》 2003 年 9 月 10 日： 「鍾庭 耀指出 …… 孫明揚 …… 楊永強 …… 林瑞麟 …… 

馬 時亨全 數低於 50 分的及 格水平 。 」 

《明 報》 2003 年 8 月 13 日： 「鍾庭 耀分析 ： 『 …… 餘下 12 個問 責官員 中只有 4 

個不及 50 分， 算 是初步 走出管 治危機 。 』」 

《 明報 》 2003 年 1 月 29 日： 「 鍾 庭耀指 出 ， 特 首評分 自去年 8 月 起已連 續半年 

處 於不及 格水平 …… 連續半 年處於 50 分以下 。 」 

另 外慧科 電子剪 報顯示 2003 年 9 月 24 日和 2004 年 4 月 14 日的 《蘋果 日報》 ， 
在為 特首和 主要官 員評分 製表時 ， 分 別出現 「註 ： 評分以 50 分 及格」 （2003 年 9 
月 24 日）、 「註： 評分由 0 至 100 分， 50 分及格 」 （ 2004 年 4 月 14 日） 等字樣 ， 

並且 都寫明 「資 料來源 ： 港 大民意 網站」 。 

鍾庭耀 1997 年 7 月 出版的 《 民意 快訊》 第 11 期， 在 總結港 督彭定 康的支 持度評 
分 時表示 ： 「整 體而言 ， 彭定康 所得的 分數一 直能夠 維持在 50 分 的合格 分數以 
上 ， 反映彭 定康在 市民心 目中的 形象尚 算不俗 。 」 據港大 民意網 站介紹 ， 無論是 
對 回歸前 的港督 ， 還是 回歸後 的特首 ， 支持 度評分 的提問 方式是 一樣的 。 

任何 稍懂中 文的人 ， 也可以 從上述 的引述 ， 清 楚理解 ， 這 套評分 方法是 ： 0 至 
100 分 ， 50 分 為合格 。 講了千 次萬次 ， 鍾 庭耀自 己也是 如是說 。 今 日被翻 出有六 
成 二的人 給了梁 振英先 生合格 的分數 ， 就 走出來 完全推 翻過去 17 年 的定義 ， 作 
為香港 大學的 民意調 查機構 ， 鍾庭耀 是不是 要正式 回應？ 



看 完以上 的引述 ， 相信 已經可 以解答 了關焯 照先生 的問題 ， 但 為求詳 細交代 ， 以 



下再作 進一步 的分析 。 關 先生等 3 人是懂 得統計 的人士 ， 請 3 位首 先思考 並回答 
一 個問題 ： 鍾庭耀 的評分 ， 是歸類 為定序 ( Ordinal ) 還 是定距 ( Interval ) 的問題 ？ 
所 謂定序 ， 通常是 3 項 式選擇 ， 回 應者獨 立挑選 ， 只能 每選項 獨立計 算頻率 ， 選 
項 之間也 不存在 空間可 供選擇 。 中大在 2012 年初 對候任 行政長 官支持 度作調 
查 ， 就 提供了 3 個選項 ： 不支持 、 普通纓 @ 半半 、支持 ，這 3 個就 是回應 者可選 
的答案 。 在 電腦運 算時是 用代碼 ， 但運 算後出 來的答 案結果 仍然是 不支持 、 普通 
纓@ 半半 、 支持 。 如果 是定序 (Ordinal) 的問題 ， 我 當然不 能把一 半半的 歸類為 
支持 ， 這是不 能接受 的錯誤 ， 這 種方法 也同時 不能相 互運算 ， 所以 不會有 平均分 
這 結果。 

看鍾庭 耀問卷 的問題 ， 是典型 的定距 ( Interval ) 的問題 。 0 至 100 是連續 ， 不是 

獨 立方塊 。 數字 可以相 互運算 ， 所以有 平均分 的出現 。 如果關 先生用 SPSS 査看 
鍾庭 耀的原 始數據 ， 可 以發現 答案只 是出現 0 至 100 分， 從 來沒有 不支持 、 一半 
半 、 支持 的字樣 。 這 3 組字不 是答案 ， 而只 是用來 向受訪 者解釋 0 至 100 分的方 
向 和意義 。 這 個所謂 一半半 ， 在統 計學上 ， 和 上述中 大那個 一半半 ， 兩者 完全不 
同意義 。 在定序 (Ordinal) 裏 ， 一半 半是獨 立成章 ， 本身就 是答案 。 但 在定距 
( Interval ) 中， 50 分就是 50 分 。 而一 般人對 50 分 是合格 分的印 象已是 根深柢 
固 ， 早 有定論 。 再加 上媒體 的報道 ， 以及鍾 庭耀自 己也不 斷解讀 50 分為 合格分 ， 
所以 本人以 50 分 為合格 分起點 ， 向上計 算得出 62% 之數 ， 又有 何問題 ？ 如果真 
的要重 回一半 半的本 來意義 ， 那就只 能用回 中大那 個問題 ， 一 半半獨 立成章 。 但 
如果用 3 選 項而不 打分數 ， 又無 法製造 「民望 肥佬」 的形象 ！ 

「平分 春色」 欠基礎 

此外 ， 關先 生也提 出把給 50 分的 頻數一 分為二 ， 一半撥 入支持 ， 一半撥 入反對 ， 

平分 春色。 

關 先生這 種做法 ， 是 完全混 亂了取 態上的 一半半 ， 和人 數上的 一半半 。 真 的要知 
道給 一半半 的回應 者的最 後取態 ， 就只 能在訪 問中再 追問一 條問題 ： 「如 果沒有 
一半 半可選 ， 那 是會投 入支持 ， 還是投 入反對 ？ 」 另有 一可能 就是棄 權不選 。 轉 
投 的比例 ， 根本無 從得知 ， 可能是 八對二 ， 也 可能是 三對七 ， 我們 憑什麼 基礎去 
假 設五成 對五成 ？ 推論可 以接受 ， 但總 要有一 些基礎 ， 例如 參考其 他兩分 法民調 
的結果 ， 而 不可以 隨意一 分為二 ， 這點 希望關 先生可 以澄清 。 歸 根究柢 ， 我們必 
須 清楚評 分本身 就有合 格纓尸 X 格 的概念 。 而 且一定 有一個 劃分點 （cut-off 
point) ， 而 沒有中 間形態 。 合格 就合格 ， 不 合格就 不合格 ， 剛剛合 格的下 一個分 
數就是 不合格 ， 就是這 麼簡單 。 

後記 ： 默書拿 50 分 的兒子 問媽媽 ： 「媽 媽， 我 合格定 唔合格 ？ 如果 50 分 不算是 
合格 ， 由 51 分才算 ， 那 50 分又 算什麼 ？ 又 是合格 ， 又是 不合格 ？ 不能算 是合格 ， 



又不 能算是 不合格 ？ 」 幾 經折騰 ， 媽媽最 後無奈 叫兒子 ： 「你 去問鍾 sir ！」 這時， 
妹妹跑 過來告 訴媽媽 ： 「我默 書也是 50 分 ， 合 格還是 不合格 ？ 」 媽 媽喜形 於色回 
答 ： 「你 哋一 個合格 ， 一個 不合格 。 」 （文 章僅代 表個人 立場） 



〈潮池 Blog〉 畫出 勝民調 之子矛 子盾計 



不 勝其煩 ， 有關 特首民 望調查 的爭論 ， 無 奈繼續 。 

港 大民意 研究計 劃負責 人鍾庭 耀澄清 ， 50 分 在特首 評分中 ， 在問卷 問題上 ， 定 
義為 「一 半半」 ， 統計 學上屬 「 中 間數」 ， 不應視 50 分為 「合 格」 或 「不 合格」 （詳 
見 〈 畫 出腸民 調之一 池渾水 > ) ， 張 志剛在 《明 報》 一文 〈 請 鍾庭 耀回應 ， 請關 
悼照 澄清 〉 ， 試圖以 子之矛 ， 攻 子之盾 ， 謂 多年來 ， 報章最 少九次 引述鍾 庭耀形 
容 「50 分 為及格 水平」 ， 以證鍾 庭耀自 打嘴巴 。 

實情 如何呢 ？ 

因為 要準備 是日香 港電台 《自由 風自由 phone) 節目 ， 筆者用 「慧科 搜索」 ， 複 
核了該 文九個 試圖指 控鍾庭 耀自打 嘴巴的 「例 證」 ， 功 課已做 ， 樂意公 諸同好 。 

文字的 確存在 ，不過 …… 

(如果 大家覺 得好煩 ， 請跳過 以下二 十三段 ， 從 尾六段 開始看 總結就 可以了 。 ） 
(以 下九 「例 證」 引 自張的 文章） 

「例 證一」 •• 《蘋果 日報》 2010 年 8 月 11 日: 「民 意研究 計劃總 監鍾庭 耀分析 ， 

按曾 蔭權 的 民望表 現而論 ， 他的 民望屬 『表現 失敗』 。雖然 他的評 分有輕 微上升 ， 
仍可以 維持在 略高於 50 分 的及格 水平。 」 

評 ： 當 天共有 六份報 章有引 述鍾庭 耀分析 ， 只有 《蘋果 日報》 提 到他說 「仍 可以 
維持在 略高於 50 分的及 格水平 」 。 1. 有 可能是 記者弓 | 述 不精準 ， 也 有可能 是鍾庭 
耀 這樣說 。 2. 按前 文後理 ， 「仍 可以 維持在 略高於 50 分 的及格 水平」 有歧義 ， 可 
詮釋為 「50 分」 是及格 水平或 「略 高於 50 分」 是及 格水平 。 

「例 證二」 《頭條 日報》 2010 年 7 月 28 日: 「該 研究 計劃總 監鍾庭 耀表示 ， 雖 
然曾蔭 權評分 脫離肥 佬行列 。 」 (註 •• 評分為 503 分) 

評 ： 「脫 離肥佬 行列」 ， 如何 詮釋為 「50 分 為及格 水平」 ？ 

「例 證三」 •• 《星島 日報》 2004 年 10 月 13 日: 「鍾 庭耀 認為他 （楊 永強） 的 



支持 度保持 穩定， 比其歷 史低位 39.4 分高出 很多， 但仍 未達到 50 分的 及格水 平。」 



評 ： 當 天共有 八份報 章有引 述鍾庭 耀分析 ， 只有 《星島 日報》 引述 鍾庭耀 就樣說 。 
有可 能是記 者引述 不精準 ， 也有可 能是鍾 確實這 樣說過 ， 難證實 。 中文大 學的同 
類調 査以五 十分為 「及 格」， 有 可能令 少部分 記者也 詮釋港 大民研 調査的 五十分 
為 「及 格」。 

「例 證四」 ： 〈 〈星島 曰報》 2004 年 9 月 29 日: 「鍾庭 耀分析 ， 調査 結果顯 示董建 
華 的民望 評分兩 年來首 次重上 50 分 水平。 」 

評 ： 當 天共有 十份報 章有弓 I 述鍾庭 耀分析 ， 都有類 似字眼 ，但 「重上 50 分水平 」 ， 
不可能 解讀為 「50 分為 及格」 的意思 。 正 如評分 「重上 60 分 水平」 ， 不 可能解 
讀為 「60 分為及 格」。 

「例 證五」 •• 〈〈 信報》 2003 年 9 月 10 日: 「鍾 庭耀 指出. ..... 孫明揚 …… 楊 永強. ― 

林瑞麟 …… 馬 時亨 全 數低於 50 分的及 格水平 。 」 

評 ： 上 段引述 有很多 省略號 ， 原文是 這樣的 ： 

「鍾庭 耀指出 ， 巿民對 財政司 司長唐 英年及 保安局 局長李 少光的 評價相 當不俗 ， 
可 見人事 更替似 乎可以 為政府 帶來一 點好處 。 不過 ， 接替唐 英年出 任工商 及科技 
局局 長的曾 俊華由 於市民 認知率 不足三 成而不 獲排名 。 

房 屋及規 劃地政 局局長 孫明揚 、 衞 生福利 及食物 局局長 楊永強 、 政 制事務 局局長 
林瑞 麟和財 經事務 局局長 馬時亨 全數低 於五十 分的及 格水平 ， 以林 瑞麟及 馬時亨 
最低分 ， 分別 有四十 三分及 四十二 點九分 。 」 

正常新 聞寫法 ， 很明 顯最後 一段並 非引述 鍾庭耀 ， 「五 十分 的及格 水平」 屬記者 
自己 的詮釋 。 「例 證五」 的省略 號省得 太多了 。 把兩段 文字砌 埋一齊 ， 改 變了意 
思 ， 這就叫 「斷 章取 義」。 

「例 證六」 •• 《 明報》 2003 年 8 月 U 日: 「鍾庭 耀分析 ： 『- ••••• 餘下 12 個 問責官 

員 中只有 4 個不及 50 分 ， 算 是初步 走出管 治危機 。 』」 

評 ： 按 當時詮 釋的前 文後理 ， 鍾庭耀 一直以 45 分為 「信 任危 機線」 ， 故 有此說 。 
而 「不及 50 分」 之講法 ， 亦 不能視 「50 分為 及格水 平」。 

「例 證七」 ： 《明 報》 2003 年 1 月 29 日: 「鍾庭 耀指出 ， 特 首評分 自去年 8 月起 



已 連續半 年處於 不及格 水平. …-. 連續半 年處於 50 分以 下。」 



評 ： 這 是較離 譜的一 個引述 ， 翻 查原文 ， 上述 引文的 省略號 ， 省了 三大段 。 原文 
第 一段是 「「港 大民意 網站」 發現 ， 特首 董建華 的民望 ， 由 1 月中的 47.3 分跌至 
1 月底的 45.2 分 ， 下滑 2.1 分 (若 綜合其 他數據 ， 1 月平 均分為 46.3 分 ， 見圖） ， 

再見歷 史新低 。 民 意研究 計劃主 任鍾庭 耀指出 ， 特 首評分 自去年 8 月起已 連續半 
年處 於不及 格水平 ， 反映政 府有管 治危機 。 」 

然後隔 了三段 ， 才是 「 民 意研究 計劃主 任鍾庭 耀認為 ， 特 首民望 自去年 8 月起， 
連續半 年處於 50 分以下 ， 並屢 創新低 ， 情况前 所未有 。 」 

而且 ， 按鍾 的說法 ， 50 分以下 ， 屬不及 格水平 (50 分為 一半半 ， 50 分以 上為及 

格） ， 此文與 鍾的一 貫講法 無矛盾 。 如此拼 湊證據 ， 製 造錯覺 ， 唉 。 

「例證 八」: 另 外慧科 電子剪 報顯示 2003 年 9 月 24 日和 2004 年 4 月 14 日的 《蘋 

果 日報》 ， 在為 特首和 主要官 員評分 製表時 ， 分 別出現 「註 •• 評分以 50 分 及格」 
(2003 年 9 月 24 曰）、 「註 ： 評分由 0 至 100 分 ， 50 分及格 」 (2004 年 4 月 14 

日） 等字樣 ' 並且 都寫明 「資 料來源 •• 港 大民意 網站」 。 

評 ： 不 能排除 「評 分以 50 分 及格」 為記者 的詮釋 ， 在港 大民意 網站中 ， 找不到 
「評 分以 50 分 及格」 的字眼 。 找 到的請 告訴我 。 

「例 證九」 •• 鍾庭耀 1997 年 7 月 出版的 《民意 快訊》 第 11 期 ， 在 總結港 督彭定 
康 的支持 度評分 時表示 •• 「整 體而言 ' 彭定康 所得的 分數一 直能夠 維持在 50 分的 
合格分 數以上 ， 反映彭 定康在 市民心 目中的 形象尚 算不俗 。 」 據港 大民意 網站介 
紹 ' 無 論是對 回歸前 的港督 ' 還是 回歸後 的特首 ， 支 持度評 分的提 問方式 是一樣 

的。 

評 ： 翻查 港大民 研出版 的當期 《 民 意快訊 》 ， 確實清 楚寫到 50 分 為及格 分數的 
說法 。 這 是九個 「例 證」 中 ， 唯 一一 個清晰 見到有 「50 分 為及格 水平」 的字眼 。 
鍾庭 耀如果 要奉陪 辯論下 去的話 ， 這點需 要解釋 。 筆 者意見 ， 港大 民研網 站如大 
海一 樣的歷 史資料 ， 只有 一兩個 矛盾位 ， 「算 係咁」 。 

長 篇大論 ， 真的唔 好意思 ° 總結 ： 九個 「例 證」 ， 五個 為曲解 、 誤 解或過 分跳躍 
閱讀 的錯解 ， 三 個有可 能是記 者自己 的詮釋 ， 只 有一處 1997 年的 說法出 現矛盾 。 

張 志剛與 建制派 的批評 ， 一 直針對 港大民 研計劃 ， 其實中 大也一 直有同 類型調 
查 ， 為何 不批判 中大呢 ？ 他 們要求 要公開 調查原 始數據 ， 港大 民研自 負盈虧 ， 數 



據屬學 術資產 ， 是日最 新發展 ， 港 大民研 發聲明 ， 公 開全部 有關梁 振英民 望的原 
始數據 ， 真 的慷慨 。 其實 ， 中央政 策組也 用公帑 資助不 少學者 做研究 ， 他 們的研 
究成果 ， 枉論 公開原 始數據 ， 研究報 告也只 能於網 上査閱 到摘要 。 既有此 「公開 
原始 數據」 的要求 ， 是否公 帑資助 的研究 ， 也應公 開原始 數據？ 

統 計數據 ， 應用 interval 還是 ordinal ， 各 有優劣 ， 50 分應如 何定義 與詮釋 ， 本應 

屬於 學術討 論範疇 ， 難 分對錯 ， 而且任 何方式 的詮釋 ， 也只差 兩三分 ， 為 何左報 
與建制 輿論對 一個學 者頻密 施襲了 ？ 大家何 時對學 術咁有 興趣了 ？ 

事件 風眼中 的主角 鍾庭耀 ， 一直甚 少正面 回應各 種批評 ， 他最近 在港台 《傳 媒透 
視》 有一 篇文章 〈 從 國王 的新衣 的說起 > ， 詳 細說了 「國 王的 新衣」 故事 ， 文末 
有這 樣兩段 ： 

「國 王沒 有雅量 ， 讒臣乘 機取巧 。 先把小 孩打成 造反派 ， 再 把科學 變歪理 。 然後 
口 誅筆伐 ， 肆 意攻擊 ' 製造白 色恐怖 ， 以為 可以解 決問題 。 誰知道 ， 真理 不會被 
改變 。 掩 耳盜鈴 ' 只會弄 巧反拙 。 

面對來 勢洶洶 的攻擊 ， 筆者 並不急 於回應 。 有 助學術 研究和 公民社 會發展 的理性 
討論 ' 筆者 當然積 極參與 。 對於 那些不 懷好意 、 借 故詆毀 的謾罵 ' 就由它 們在歷 
史洪 流中消 失好了 。 真理 不在口 舌之間 ， 只要把 事實紀 錄下來 ， 誰 是誰非 ' 歷史 
自有 分曉。 」 



民調 真相 此中尋 [關 焯照 、 周文林 、 雷 照盛] 



蘋 果日報 2014 年 3 月 26 日 

港大 民意研 究計劃 （下稱 「港大 民研」 ） 的特 首民調 爭議越 演越烈 。 網站 「港人 
講地」 和 行會成 員張志 剛在這 幾天仍 在電子 傳媒和 報章發 表批評 ， 認為港 大民研 
以 評分計 算民望 的做法 有問題 。 同時 ， 將 50 分 釐定為 「一 半半」 可被一 般市民 
視為合 格分數 ， 此外 ， 將 被訪者 的評分 劃分為 「0 至 49 分」、 「50」 及 「51 至 100 
分」 的概念 ， 可能 令問題 含糊化 。 

首先 ， 筆者 寫這篇 文章的 目 的是， （ 1 ) 澄 清一下 做民調 分析需 要注意 的地方 ， （ 2 ) 
希望避 免民調 結果的 解讀產 生誤解 。 

港 人講地 及張志 剛猛烈 批評的 港大民 研的民 調問題 是特首 的支持 度評分 ， 其的内 
容是 ： 「而 家想 請你用 0-100 分評 價你對 特首梁 振英的 支持度 ， 0 分 代表絕 對不支 
持 ， 100 分 代表絕 對支持 ， 50 分代表 一半半 ， 你 會畀幾 多分梁 振英呢 ？ 」 

港大民 研是採 用統計 學上常 用的等 距量表 （Interval Scale) 的方法 去量度 特首的 

支持度 （ 由 最低的 0 分至 最高的 100 分）。 這 種做法 的好處 是從得 分上了 解到市 
民支持 特首的 「程 度」 （附圖 ） 。 大家可 以細想 ， 有兩位 被訪者 給予的 分數是 51 
分和 90 分 ， 顯然 ， 評 90 分的被 訪者的 支持度 遠較評 51 分 的被訪 者為高 ， 但如 
果採 用港人 講地和 張志剛 的提議 方法去 分組， 以 50 分為 中間點 分界， 然後將 0-49 
分和 50-100 分別 釐定為 「不 合格」 和 「合 格」， 讀者 便不能 看到這 兩個評 分的差 
異了 。 

港 人講地 和張志 剛的做 法是將 0 至 100 分 的範圍 變換為 兩個不 同組別 ，「合 格」 
與 「不 合格」 。 如果用 統計學 的說法 ， 他 們是用 一個順 序量表 （Ordinal Scale) 去 
將數據 分類一 一即是 變為分 類數據 。 如 果用以 上例子 ， 51 分和 90 分是納 入為同 
一組別 （合格 ） ， 但 問題是 51 分和 90 分是分 代表不 同程度 的支持 ， 但在 歸納組 
別過程 （Aggregation) 中 ， 這種 支持程 度的差 距便會 被剔除 ， 對研究 者來說 ， 這 
可 視為流 失了重 要資料 ， 最 終令研 究質量 被拉低 。 

一 個相關 的難題 是一旦 採用港 人講地 和張志 剛所提 出的二 元答案 （ 合格 和不合 
格 ） 作 為分析 ， 在這 情況下 ， 問 題的字 眼和答 案是需 要修改 。 例如 ， 問題 可寫為 ： 
「你 支不 支持特 首梁振 英？」 而答案 分別是 「支 持」、 「不 支持」 和 「無 意見」 。 
一旦港 大民研 的問題 重新改 寫為港 人講地 和張志 剛的問 題格式 ， 得出 來結果 （例 
如支持 度的百 分比） 是 極可能 有差距 ， 因 為問題 的本質 和問法 已不同 ， 至 於差距 



在統計 學上是 否有明 顯分別 ， 這便要 用適當 的統計 方法去 驗證了 。 



最後 ， 另 一個爭 論點是 50 分是 否一個 合格分 。 單以民 調的問 題措辭 ， 筆 者看不 
到港大 民 研有任 何表示 50 分是 一個合 格分數 。 至於 「 一半半 」 ， 是 一個中 性詞彙 ， 
可 解讀為 「 中 間點」 、「一 般」、 「普普 通通」 等 。 然而 港人講 地和張 志剛堅 持認為 
50 分是一 般人理 解為合 格分數 ， 這只 是他個 人意見 ， 正 確與否 ， 學界自 有公論 。 

現 在整個 港大民 研的民 調爭議 只是各 說各話 ， 猶如雞 同鴨講 。 但筆者 要指出 ， 做 
學 術研究 是需要 保持嚴 謹態度 ， 無 論從民 調内容 、 樣 本的收 集方法 和統計 分析均 
要 達到起 碼的學 術水平 ， 這 才能令 人信服 。 

經 濟學家 、 冠 域商業 及經濟 研究中 心主任 
經 濟學家 、 冠 域商業 及經濟 研究中 心高級 研究員 
統 計學家 、 港大 統計及 精算學 系講師 、 冠 域商業 及經濟 研究中 心研究 



照 林 盛 

焯 文 照 

關 周雷員 



盧先亞 ： 特 首的媽 （一） 



2014-3-28 

前幾天 看到了 張志剛 先生為 了護主 ， 在 他報再 次向鍾 庭耀博 士及挺 身而出 的關焯 
照博士 ， 就民 調一事 「叫 陣」 ， 且 在文中 引述好 些統計 學的專 業用語 ， 例 如甚麼 
等距 （ interval ) 、 有序 （ Ordinal ) 數 據等等 ， 明 顯就是 要嚇唬 外行人 。我 自問 

不 學無術 ， 未敢輕 言反駁 ， 所以特 地請教 我的一 位學弟 ， 現該 說是一 位學者 。 他 
與統 計結緣 廿多年 ， 持有統 計學博 士學位 ， 年 少時甚 至當過 訪問員 ， 及後 任教統 
計課程 ， 並主理 多個大 型統計 調查及 參與民 調工作 ， 現 仍在這 領域繼 續研究 ， 可 
知其醉 心程度 。 

當我致 電並道 明來意 ， 他努 力嘗試 透過電 話解說 ， 我越聽 越唔知 佢嗡乜 ， 咁話晒 
都係 學究嘛 ， 當他 亦然發 覺話筒 另端的 「接 收」 有問題 ， 他說不 如發個 電郵以 
資說明 ， 我 自是求 之不得 。 雖 然我還 得再三 懇請他 要寫得 淺白入 屋一些 ， 而他亦 
同 時叮囑 我千祈 「唔 好開 名」。 我明白 學院中 人大都 不愛拋 頭露面 ， 惟更 清楚的 
是 ， 若然 無端拖 他下水 ， 只 怕鍾庭 耀之外 ， 又多一 位統計 專才遭 受打壓 ， 我又 
於 心何忍 。 不過 ， 跟手收 到其洋 洋數千 字的鴻 文更知 ， 其 實佢根 本就係 想直斥 
痛罵 張志剛 ！ 我又 怎不玉 成美事 。 惜原 文太長 ， 節 錄之餘 ， 還要分 日刊出 。 以下 
是學 弟的話 ， 而括 號内乃 我後加 ： 

張志 剛先生 ， 在此 回應你 在報刊 所寫 。 特 首也並 不是我 的兒子 ， 我 更不願 作特首 
的媽 ！ （誰又 想天天 捱罵呢 ！ ） 一區 之首亦 不是小 朋友默 書考試 ！ 我不知 道閣下 
對 兒女要 求如何 ， 但大部 分港媽 亦不會 接受仔 女只拿 50 分 ， 何 況是特 首要職 ！ 
比方說 ， 在 職場上 ， 誰 會接受 在工作 上只有 50 分 的下屬 ？ 怕早給 炒掉了 ！ （ 這 
點我可 佐證） 大部 分有志 氣有理 想的人 （與 張先生 無關） ， 亦不會 甘心跟 隨能力 
只有 50 分的上 司工作 ， 沒前 途的吧 ！ 所以請 不要在 50 分上沾 沾自喜 ， 況 且我們 
的特 首在最 新的港 大民調 中只得 47.5 分呢 ！ 

在張先 生文中 ， 論定港 大民調 問卷中 的所謂 支持程 度是屬 於等距 (interval) 數 
據 ， 原 因是原 始數據 (raw data) 只 記錄了 0 至 100 分 ， 當 中並沒 有支持 、 一半半 
及 不支持 的字樣 。 這種 論證確 實粗疏 ！ 專業統 計人員 都知道 ， 原始 數據不 能單獨 
使用 ， 一定要 參照編 碼手冊 (coding manual) 或問 卷設計 。 舉例 ， 問 卷可能 會包含 
一 些有關 出生地 、 職業 、 行業 等問題 ， 一 般會用 數字代 碼記錄 （ 例如 1 代 表香港 、 
2 內地及 3 其他 地方） ， 一來比 較方便 ， 亦 同時大 大減少 電子檔 案存量 。 如果不 
參照編 碼手冊 （coding manual) 或問 卷設計 ， 原始 數據就 出現不 能解讀 ， 甚或 
誤讀 的情況 。 而張 先生的 論據只 是簡單 對號入 座的誤 讀罷了 。 



參考 港大民 調問卷 ， 該 問題是 ： 「而 家想 請你用 0 至 100 分 評價你 對特首 梁振英 
既支 持程度 ， 0 分代 表絕對 唔支持 ， 100 分 代表絕 對支持 ， 50 分代表 一半半 ， 你 
會俾 幾多分 特首梁 振英呢 ？」 自 90 年代起 ， 港大民 調一向 是使用 CATI 系統 （學 
弟列 出全寫 ， 我 從略） ， 即 是使用 電腦抽 選電話 ， 自 動撥號 至接通 ， 訪問 員會準 
確 依據電 腦所示 讀出問 題再把 受訪者 答案輸 入電腦 ， 整個過 程亦有 主管在 旁監聽 
以 確保數 據質素 。 所以每 個受訪 者亦會 清楚明 白 50 分代表 一半半 ， 而不 是代表 
合格 ， 這 是無可 爭議的 。 



盧先亞 ： 特 首的媽 （二） 
2014-3-31 

在 討論甚 麼是合 格之前 ， 首先要 了解甚 麼是支 持程度 。 支持 程度和 考試測 驗最大 
的分 別是後 者大多 數有明 確的評 分標準 ， 例 如答對 一題有 10 分， 而合格 標準則 
是老師 或教授 們的專 業判斷 。 學術程 度越高 ， 合格 標準就 越嚴格 ， 例 如醫生 、 工 
程師等 專業考 試要求 就很高 ，人命 關天噢 ！ 所 以考試 分數大 多是定 義明確 的集合 
( well-defined set ) 。 但在社 會研究 或行為 科學等 領域中 ， 很多時 要處理 一些含 
糊不清 、 定義 不明確 的變數 （ variable ) ， 數學上 稱為模 糊集合 ( Fuzzy set ) ， 
例 如快樂 、 情緒 、 生 活滿足 （ life satisfaction ) 、 工 作動力 （ work motivation ) 等 
等 。 一些社 會學家 、 心 理學家 、 計量心 理學者 （ psychometrician ) 、 教 育學者 
就會 以李克 特量表 （ Likert Scale ， 下簡 稱量表 ） 為這 些糢糊 概念作 簡單的 量化描 
述 ， 即 是問卷 常用的 5 級設計 ： 

1. 非 常同意 

2. 同意 

3. 既不 是同意 亦不是 不同意 （或作 中立） 

4. 不同意 

5. 非常 不同意 

有 些研究 員會再 把量表 擴展為 7 級或更 高級別 ， 而港 大民調 只是把 量表以 0 至 
100 分表示 ， 而 50 分則為 101 級 量表的 「 一半半 」 ！ 對照 5 級量 表其實 分別不 
大 ， 只是支 持及不 支持兩 方面被 劃分得 更仔細 。 值得注 意的是 ， 量表並 非等距 ， 
即是 （ 4 不 同意） 並不是 （2 同意） 的兩倍 ， 但一 定對稱 （symmetric) 。 同理 ， 
港大民 調中所 謂的支 持程度 ， 50 分 亦不是 25 分的 2 倍 ， 而 用量表 所計算 出來的 
平均數 亦只是 一種中 間趨勢 的描述 ， 這 亦是對 稱設計 的結果 。 



那麼怎 樣才叫 合格？ 鍾博 士講得 很清楚 ， 在 港大民 調設計 之中並 沒有考 慮這問 



題 ！ 至 於怎樣 去訂立 合格線 ， 我建 議可在 港大民 調中加 入問題 ， 例如問 ： 你覺得 
作為一 個特首 ， 社 會大眾 對其支 持程度 （ 0 至 100 分） 應該 （ i ) 要達到 幾多分 
以上才 可以叫 做合格 （即 Pass) 呢？ （ii) 要達 到幾多 分以上 才可以 叫做良 （即 
Pass with Credit ) ？ (iii) 要達 到幾多 分以上 才可以 叫做優 （ 即 Pass with 
Distinction) ？ 另外， 亦 可找來 政冶學 及公共 行政學 的學者 （經濟 學者， 尤其 
姓雷的 ， 大可 不必） 們 ， 為特 首這職 位定一 些標準 。 當中並 不一定 只採用 社會大 
眾的 支持程 度作唯 一條件 ， 同時 可加入 其他可 測計量 ， 例如 GDP 增長 、 堅尼系 
數 、 犯罪率 、 環 保指標 、 新聞 及言論 自由指 標等等 。 

我只 想強調 ， 特 首是重 要之職 ， 合格並 不足夠 ， 香港 作為一 個現代 化的國 際城市 ， 
要有一 個具傑 出工作 能力並 獲大眾 支持的 特首方 是王道 。 另外 ， 張 先生一 再要鍾 

博士為 過去傳 媒的報 道負責 。 這顯然 不是統 計問題 ， 但我亦 想請教 張先生 ， 有幾 
許公眾 人物包 括特首 、 司長 、 局 長以致 閣下又 何曾會 為傳媒 的報導 負責呢 ？ 梁振 
英 N 年前也 說不會 選特首 ， 張先 生曾幾 何時亦 公開讚 揚港大 民調中 立專業 。 那 
張先 生又如 何對自 己的言 論負責 ？ 梁特 首又是 否要為 自己反 口食言 負責呢 ？ 

事實上 ， 民調是 一項以 統計學 為基礎 的社會 研究專 門科學 ， 張先生 可能並 不是這 
方面 的專才 ， 那麼還 請留待 其他學 者們討 論交流 。 而 張先生 貴為行 會成員 ， 亦請 
不要重 私忘公 ， 免得引 起社會 大眾誤 會行會 打壓學 術自由 ， 那 就相當 不妙！ 

最後 ， 我 要向張 先生表 達敬意 ， 你甘願 接納與 支持一 個不足 50 分 的特首 ， 只因 
視特首 如己出 ， 把他當 作兒子 般看待 ， 實有 為人母 親的偉 大情操 ！ （主 席按 ： 果 
然是溫 良恭讓 的學者 ， 未句明 明就是 「他 媽的」 偉大 ！ ） 



港 大民調 之統計 學解讀 《有涯 小扎》 



摘要 ： 本文 透過統 計學分 析方法 ， 檢視 近日輿 論對港 大民調 中特首 民望調 查的批 
評及反 ® ， 探討 這些言 論背後 的統計 學理據 。 本文作 者認為 ， 港大 民調在 抽樣方 
面十 分嚴謹 ， 但在 設計問 卷和演 繹結果 方面有 值得適 榷之處 。 本文 又對港 大民研 
所公 布的原 始數據 進行了 進一 步分析 ， 指 出當中 所蘊含 的啟示 ， 並 據此提 出建議 。 



近日有 關香港 大學民 意調查 （下 稱港大 民調） 的 爭論甚 囂塵上 。 港 大民調 是香港 
大學 民意研 究計劃 （下 稱港大 民研） 定 期舉行 的民調 ， 由香 港大學 政治與 公共行 
政學系 的鍾庭 耀主持 。 民調 内容包 括特首 、 政府 、 主 要官員 、 議 員民望 ， 及其它 

社會 指標等 (《 香 港大學 民意研 究計劃 » 。 2014 年 2 月 8 日， 民主 黨黨員 、 律師 
陳莊 勤在明 報發表 《沉 默的 螺旋》 一文 ， 批評 港大民 調以平 均分來 表達特 首梁振 
英民望 ， 結 果易被 極端數 值影響 ， 又以 50 分 作為合 格分數 ， 並 不全面 。 同時這 
些民調 「本身 並不單 單在反 映民意 ， 也同 時在以 定期公 布評分 來塑造 民意」 （2 
月 8 日明報 陳莊勤 〈 〈 沉默 的螺旋 》） 。 3 月 4 日， 在北 京舉行 的政協 港澳聯 組會議 
上 ， 政 協常委 、 恒基 地產副 主席李 家傑點 名批評 鍾庭耀 ， 指 其主持 的港大 民調 「 總 
是 在關鍵 時候發 表對中 央政府 、 特區政 府以至 整個愛 國愛港 陣營十 分不利 的民意 
調査 結果」 ， 藉此 「操 弄民 意」。 他又認 為鍾的 民調不 夠科學 ， 卻是 香港眾 多民調 
機構 中最具 影響力 的一個 ， 必須盡 快改變 （3 月 5 日 AM730 〈 〈 李家 傑批評 鍾庭耀 
用民調 為反對 派造勢 ») 。 鍾庭 耀於同 日發表 書面聲 明回應 ， 指出 其調查 方法經 
得起學 術考驗 ， 「總會 堅持科 學透明 的原則 ， 從不遷 就對方 的政治 背景或 立場」 ， 
認為 「如 果把言 論自由 的憂慮 ， 進 一步擴 大至學 術自由 的空間 ， 是 非常不 智的做 
法 。 」 他 又歡迎 任何人 士討論 民意研 究工作 ， 「只 要是實 事求是 ， 客 觀公正 ， 便 
可集思 廣益」 （港 大民研 〈 〈 關於 政協委 員李家 傑於政 協會議 上有關 「民 意調查 i 
的 言論 》 ）。 

陳 、 李 二人的 批評引 起了廣 泛關注 。 有 論者從 政治立 場和動 機立論 （如 3 月 17 
日 文滙報 文平理 《 「鍾 氏民調 i 真 的是學 術嗎？ 》 、 3 月 18 日 蘋果日 報李怡 《逡 
民 調為扼 殺民意 ») ， 本文 對此無 意涉獵 。 另 有論者 從統計 學角度 評論鍾 的研究 
方法 。 行政會 議成員 張志剛 在電台 節目稱 ， 鍾庭耀 曾經多 次提到 50 分是 合格水 
平 ， 認為 他有需 要向公 眾交代 （3 月 20 日商 業電台 《 張志 剛指鍾 庭耀多 次提及 
五十分 屬合格 » 。 他 又認為 ， 在極端 評分的 影響下 ， 用平 均分來 評核梁 振英表 
現 ， 猶如瞎 子摸象 ， 普通 人亦難 以理解 50 分 是否合 格水平 。 若 50 分屬於 不合格 ， 
港 大應清 楚說明 ， 並 解釋何 謂支持 度評分 合格或 不合格 （3 月 21 日 大公報 《通 



志剛 促鍾庭 耀交代 民望 50 分是 否合格 » 。 陳莊勤 則指出 ， 「在 一般人 心目中 ， 
50 分這 及格分 具有非 常重要 的象徵 意義」 ， 但 如果只 公布平 均分而 不公布 各評分 
的人 數分布 ， 便是不 完整的 民調結 果公布 。 以 今次民 調為例 ， 61.8% 受訪 者給予 
合 格分數 ， 38.2% 給 予不合 格分數 ， 跟兩大 民研/ 民 調機構 定期公 布以平 均分均 
多 數低於 50 分所 顯示的 民情相 去甚遠 （ 2 月 8 日 明報 陳莊勤 〈 〈 沉默 的螺旋 》 、 3 
月 20 日明報 陳莊勤 《 再 談民調 » 。 網站 「港人 講地」 亦 提出類 似論點 ， 指出整 
體平 均分被 0 分的 「極端 評分」 拉低 ， 令 梁振英 支持度 被低估 ， 認 為應取 中位數 
更佳 。 過往 多年的 新聞報 道都把 50 分演 繹為及 格分數 ， 港大民 研亦未 有澄清 ， 
令市民 累積了 「 50 分等 同合格 」 的印象 。 又批評 港大以 SPSS 格式 發佈原 始數據 ， 
必須裝 有特定 軟件才 能開啟 （3 月 14 日港 人講地 《 解 開特 首民望 「不 合格 | 之 
靈》、 3 月 20 日港 人講地 《 有關 港大民 調的幾 個疑問 ： 覆練 乙錚及 關焯照 兩位學 
者》 ） 。 公民 黨黨員 、 港 大法律 學院院 長陳文 敏認為 ， 剔除 極端數 據是普 遍做法 ， 
因為 更能反 映現實 （YouTube 視頻 《 公 民黨港 大法律 學院院 長陳文 敏都覺 得鍾庭 
耀的民 調做法 不是專 業手法 » 。 中大 亞太研 究所研 究員鄭 宏泰稱 ， 港大 民調的 
50 分 沒有正 面意思 ， 不能視 為合格 ， 與 中大民 調講明 50 分 及格並 不相同 。 但 0 
分 亦是表 達出某 類民意 ， 從 政者應 予注意 （3 月 20 日明報 〈 〈 特首 民望 50 分意義 
中大 「及格 I 港大 「一 半半 i 》）。 

因 應批評 ， 鍾 庭耀在 港大民 研網站 重貼了 2003 年的兩 篇文章 ， 解 讀特首 民望調 
查 的設計 ( 《 「特 首民 望新解 i 、「問 責官 員如何 向民意 問責？ i » 。 文 章指出 ， 
55 分的支 持度大 約等如 假想投 票中的 45% 的 「得 票率」 ， 50 分的 支持度 則可化 
成大約 30% 的 「得 票率」 ， 45 分 大概會 轉化為 20% ， 而 40 分大概 會化成 10% 至 
15% 左右 。 其後 ， 鍾又在 出席一 個論壇 時回應 ， 指 使用平 均分是 國際常 用標準 。 
而 50 分 只是一 個中性 的分數 ， 沒有所 謂合格 不合格 。 至 於開啟 SPSS 格式 檔案的 
軟件 ， 在大學 可以免 費下載 ， 他 相信任 何一個 專業研 究機構 都有相 關軟件 （3 月 
15 日商 業電台 《 鍾 庭耀指 國際間 最常使 用平均 分作研 究結果 » 。 前中大 經濟學 
教授 、 現職 冠域商 業及經 濟研究 中心的 關焯照 ， 聯同經 濟學家 周文林 、 統 計學家 
雷照盛 等撰文 ， 指出根 據問題 的措辭 ， 50 分只 是代表 「一 半半」 ， 沒有任 何暗示 
這是 一個合 格的最 低門檻 。 如果把 50 分歸 入合格 ， 會得出 61.8% 的人給 了合格 
分數 。 但 如果把 50 分歸入 不合格 ， 會得出 66.4% 的人給 了不合 格分數 ， 兩者結 
果相反 。 解決方 法是把 一半評 50 分的 人歸入 0-50 分一組 ， 另一 半歸入 50-100 
分一組 ， 結 果是有 52.4% 的 人給了 0-50 分 ， 反映特 首的支 持度評 分不是 太理想 。 
他們 同意一 旦出現 很多人 選擇極 高或極 低評分 ， 平 均分不 是最好 的指標 ， 建議同 
時公佈 中位數 和眾數 ， 或剔 除極高 或低評 分部份 ， 計算 「截尾 均值」 。 但 他們亦 
認為 ， 極高 和極低 的評分 也是重 要的統 計資料 ， 不 能忽略 （3 月 20 日蘋 果日報 
關焯照 、 周文林 、 雷照盛 《 民調 小學雞 ») 。 傳 媒工作 者練乙 錚則指 ， 港 大民調 
的特 首民望 評分由 0 至 100 ， 即有 101 個整數 ， 50 分居中 ， 故 此應尊 重給予 50 
分 者的中 立態度 ， 而非把 50 分理解 為支持 梁振英 。 至於 0 分與 100 分 ， 在港大 



民 調中都 有清楚 而具體 的定義 ， 不 應剔除 。 若真 要剔除 0 分 ， 亦應同 時剔除 100 
分 。 即使 剔除了 ， 平 均值仍 是低於 50 分 （3 月 20 日信報 練乙錚 《 打 棍無效 ： 網 

小 子放倒 「巨人 i 張 志剛 》 ）。 



下表 總結了 兩方面 的言論 ： 





批評 


反駁 


平均分 


■ 整體 平均分 被極端 評分拉 


■ 使用 平均分 是國際 常用標 


與極端 


低 ， 低 估特首 支持度 。 （陳莊 


準 。 （鍾 庭耀） 


評分 


勤 、 港人 講地） 


■ 0 分亦表 達出某 類民意 ，從政 




■ 剔除極 端數據 是普遍 做法， 


者 應注意 。 （鄭 宏泰） 




更能反 映現實 。 （陳 文敏） 


■ 極高和 極低的 評分也 是重要 




■ 一旦出 現很多 人選擇 極高或 


的統 計資料 。 （關焯 照等） 




極 低評分 ， 平 均分不 是最好 


■ 0 分與 100 分都 有清楚 而具體 




的指標 。 可同 時公佈 中位數 


的定義 ， 不 應剔除 。 若真要 




和眾數 ， 或剔 除極高 或低評 


剔除 0 分， 亦應同 時剔除 100 




分部份 ，計算 「截 尾均 值」。 


分 。 即使 易除了 ， 平 均值仍 




(關焯 照等） 


是低於 so 分 。 （練 乙錚） 




■ 類似 0 分或 100 分的 的極端 






評分 將會愈 來愈多 ， 因此不 






能單 單公佈 平均分 ， 可以中 






位 數代之 。 （港人 講地） 




關於 50 


■ 以 50 分為合 格分數 並不全 


■ 50 分只 是一個 中性的 分數， 


分是否 


面 。 給 予合格 分數的 人數是 


沒有所 謂合格 不合格 。 （鍾庭 


合格分 


佔 總受訪 人數的 61.8%， 給予 


耀） 


數 


不合格 分數的 人數佔 總受訪 


■ 55 分的 支持度 大約等 如假想 




人數的 38.2%。 這樣的 結果與 


投 票中的 45% 的 「得 票率」 ， 




多年 來兩大 民研/ 民 調機構 


50 分的 支持度 則可化 成大約 




定期公 布以平 均分均 多數低 


30% 的 「得票 率」， 45 分大概 




於 50 分 所顯示 的民情 相去甚 


會 轉化為 20% ， 而 40 分大概 




遠 。 （陳 莊勤） 


會化成 10% 至 15% 左右。 (鍾 




■ 港大 民調的 50 分沒有 正面意 


庭耀） 




思 ， 不能視 為合格 。 （鄭 宏泰) 


■ 根據 問題的 措辭， 50 分只是 




■ 有 愈六成 人給了 50 分 以上的 


代表 「一半 半」， 沒有 任何暗 




分數。 過往 新聞報 導都把 50 


示這 是一個 合格的 最低門 




分演 繹為合 格分數 ， 令市民 


檻。 50 分是評 分的中 間點， 




累積了 「50 分等同 合格」 的 


如果把 50 分歸入 合格， 會得 




印象 ， 港 大有必 要澄清 。 （港 


出 61.8% 的 人給了 合格分 




人 講地） 


數 。 但 如果把 50 分歸 入不合 





■ 翻查以 往報道 ，發現 鍾庭耀 

曾多 次提到 50 分是 合格水 
平。 普 通人難 以理解 50 分是 
否合 格水平 ， 認為 鍾要澄 
清 。 (張 志剛） 


格 ， 會得出 66.4% 的人 給了不 
合 格分數 ， 兩者結 果相反 。 
解決方 法是把 一半評 50 分的 
人歸入 0-50 分一組 ' 另一半 
歸入 50-100 分一組 ， 結果是 
有 52.4% 的 人給了 0-50 分 ， 
反映特 首的支 持度評 分不是 
太理想 。 （關 焯照等 ） 
■ 特 首民望 評分由 0 至 100， 50 
分居中 ，應尊 重給予 50 分者 
的中立 態度， 不應 擅自將 「50 
分」 定義為 「合 格」。 (練 乙錚) 


數據格 
式問題 


■ 港大以 SPSS 格 式發佈 原始數 

據 ， 必 須裝有 特定軟 件才能 
開啟 。 （港人 講地） 


■ 開啟 SPSS 格式 檔案的 軟件， 

在大學 可以免 費下載 ， 相信 
任何一 個專業 研究機 構都有 

相 關軟件 。 （鍾 庭耀） 



關 於民調 的統計 學基礎 

民 調在外 國稱為 opinion poll ， 其要 旨是運 用統計 學方法 ， 找出一 個群體 對於某 
個社 會議題 的意見 。 統計過 程可以 分為五 大步驟 ： 收集 、 組織 、 分析 、 演繹 、 發 
表 (《 What Is Statistics? -Overview 》) ° 



做民調 的最理 想方法 是從整 個群體 （稱為 「母體 (population) j) 中收 集數據 ， 即 
要 訪問群 體內的 所有人 ， 如 此即能 得出全 面的統 計數據 ， 這種做 法稱為 「人 口普 
查 （population cen SUS )」。 但現 實中往 往由於 目標群 體的人 數眾多 ， 只能從 受訪對 
象之 中作隨 機抽樣 （random sampling) 並進 行訪問 ， 這種做 法稱為 「抽 樣統計 
(sample statistics) j ° 無論是 人口普 査或抽 樣統計 ， 在得到 原始數 據之後 ， 研究員 
都會 組織並 分析原 始數據 以進行 總結。 最 常見的 總結方 法是取 平均值 （mean) 和 
標準差 （standard deviation)' 以 展示數 據的中 央趨勢 （central tendency) 和 分散程 
度 （variability) 。 中 央趨勢 的量度 ， 還 可以用 中位數 （median) 和眾數 （mode) 。 
分散程 度的量 度還可 以用數 值範圍 （range ， 即最大 數減最 細數） 、 方差 
(variance ， 即標 準差的 平方） 、 百 分位數 （percentile) 等 。 除了中 央趨勢 和分散 
程度 ， 有 時還要 量度數 值分布 的偏度 （skewness ， 即非對 稱性） 和峰度 （kurtosis ， 
即尖峰 的尖銳 程度） 。 這些都 是嘗試 用少量 的數字 ， 去總結 一大堆 數據的 整體特 
性。 數 字之外 ， 有時 也會用 圖表表 示數據 的特性 ， 最常見 的是以 直方圖 （histogram 
來 展現數 據的頻 率分布 （frequency distribution) 。 從上 文可知 ， 數 字簡潔 易用但 
流於片 面 ， 圖表表 達較麻 煩卻能 給出更 多方面 的資料 ， 研究 員在報 告中往 往要兩 
者配 合使用 ， 才能 展現數 據的真 實特性 。 



用這 些統計 結果來 描述原 始數據 的特性 ， 稱 為描述 性統計 （descriptive 
statistics) 。 如 果是從 樣本的 特性來 推論整 個母體 的特性 ， 則稱 為推論 性統計 
(inference statistics) 。 中央極 限定理 (central limit theorem) 表明 ， 如 果樣本 婁女足 
夠大， 而且抽 樣足夠 隨機， 則 樣本的 平均值 會呈正 態分布 （normal distribution) 並 

趨近 母體的 平均值 ， 而標 準差則 為母體 的標準 差除以 樣本數 的開方 。 只要 符合中 
央極 限定理 的條件 ， 便可 以從樣 本的平 均值和 標準差 ， 推測 母體的 平均值 和標準 
差 ， 並推測 這些推 測的置 信區間 （confidence interval) ， 以 估計可 能的誤 差範圍 ， 

從 而決定 推測的 可信性 。 然後 ， 研究 員便會 就著有 關調查 的主題 ， 演繹並 發表調 
查 結果。 

關 於上述 的統計 學理論 ， 可以 參考一 般的統 計學入 門書籍 （如 (Qpenlntro 
Statistics 》) 。 

抽樣 調查可 能出現 以下幾 種誤差 ： 

其一 、 因為 樣本缺 乏代表 性而引 入誤差 。 抽 樣必然 要忽略 母體中 部份人 士的意 
見 ， 樣 本越小 ， 遺 漏越多 ， 因此 樣本必 須要有 代表性 ， 即其成 份跟母 體相若 ， 否 
則從樣 本的特 性來推 論整個 母體的 特性時 ， 便會出 現誤差 (Wilks, 1940) 。 例如 ， 
有文 獻指出 部份在 美國進 行的電 話調査 ， 只對家 用電話 號碼進 行抽樣 ， 但 現今越 
來 越多人 只用手 提電話 ， 作者認 為有證 據顯示 這些只 用手提 電話的 人有相 當不同 
的政見 ， 因此以 家用電 話受訪 的樣本 不能代 表他們 （Mokrzycki, 2010) 。 

其二 、 受 訪者未 必願意 表達自 己的真 實看法 。 例 如問題 較敏感 ， 令 受訪者 不想或 
不敢表 達意見 。有 學者提 出沉默 的螺旋 （spiral of silence) 的 概念， 指出如 果受訪 
者 認為自 己的意 見屬於 少數派 ， 便可能 不敢發 表真實 的意見 （Noelle-neumann, 
1974) 。 一項 以台灣 與美國 人為對 象的研 究指出 ， 接 受電話 訪問時 台灣人 展現了 
沉 默的螺 旋現象 ， 美國人 則不然 ， 顯示某 種文化 特質可 能會導 致這現 象出現 
(Huang, 2005) 。 

其三 、 訪問 的用語 或會影 響結果 。 不 同文化 、 不同背 景的人 對問題 可能有 不同的 
理解 (Groves, 2009) ， 影響 數據的 有效性 (validity) 。 

其四 、 在總結 報告時 ， 無可 避免要 忽略原 始數據 中的一 些資料 。 例 如平均 值的計 
算 方法是 將數據 總和除 以個數 ， 從平 均值卻 不能反 過來計 算出原 始數據 。 以 {0, 
60,60} 和 {40,40,40} 兩組數 據為例 ， 平均 值都是 40 。 兩組 數據明 顯不同 ， 卻 

無法從 40 這個 數字得 知有甚 麼不同 ， 因為 原始數 據的細 節被忽 略了。 如 果統計 
量的選 取不宜 ， 便會 在演繹 出誤導 的結果 。 部份輿 論針對 平均值 所提出 的質疑 ， 
即屬 這一類 。 



港大民 調使用 的方法 

港大 民研網 站詳列 了特首 梁振英 評分的 相關研 究方法 (《 特 首梁振 英評分 ») 。 調 

查基本 上每兩 個月進 行一次 ， 以電 話訪問 18 歲以 上操粵 語的香 港市民 。 每次樣 
本數為 1000 或以上 ， 抽樣方 法是從 住宅電 話簿中 首先以 隨機方 法抽取 「種, f 子」 
號碼 ， 在號碼 上加減 1 或 2 ， 過 濾重覆 號碼後 再作隨 機排列 ， 然 後提供 給訪員 
進行電 話訪問 。 如果被 抽中的 家庭中 成員不 止一人 ， 就選擇 下一位 即將生 日的家 
庭成員 作訪問 。 

調 査的結 果經過 了加權 （weighting) 處理 。 根據 上文所 引文獻 （Wilks, 1940) ， 樣 

本的成 份要跟 母體相 若才有 代表性 。 由於事 實並不 符合這 項要求 （例 如年 齡分布 
不同 ） ， 因此研 究員按 2013 的 中期人 口統計 中的性 別與年 齡分布 ， 及 2011 年人 
口普查 中的學 歷分布 ， 對樣 本進行 了加權 ， 其百 分比已 詳列於 《 被 訪者基 本個人 
資料 》 網頁 。 例如 ， 18-29 歲的人 口比例 ， 在 原始樣 本中為 15.9% ， 在加 權樣本 
中 修正為 18.3% 。 要留 意加權 是加在 人數上 ， 而不 是加在 分數上 。 兩者的 概念大 
有不同 。 例如一 個給了 50 分的人 ， 若要 將其所 佔的權 重加倍 ， 會 變成兩 個給了 
50 分的人 ， 而 不是一 個給了 100 分的人 。 有 些網站 忽略了 這一點 ， 錯誤 計算出 
大於 100 分的評 分( 如 ： 輔仁網 《 港 大民 研特首 評分係 「被 拉高 i 還是 「拉低 i? 》 ）。 
調 査所用 的問卷 有幾個 版本， 關於特 首民望 的問卷 編號為 t P 1403013_01 (《 調 查 
問卷》 ）。 除 了詢問 受訪者 對特首 的支持 度之外 ， 問 卷還會 詢問受 訪者的 居住地 
區 、 家庭成 員人數 、 是否登 記選民 、 有否 在各項 選舉中 投過票 、 性別 、 年齡 、 教 
育程度 、 居 住情況 、 婚 姻狀況 、 職 業收入 、 階層 （如 中產、 基 層等） 、 出生地 、 
行業 、 來港年 期等等 。 

關 於特首 支持度 的問題 有兩條 ： 

■ Q1: 而家想 請你用 0 至 100 分評價 你對特 首梁振 英既支 持程度 ， 0 分代表 

絕對 唔支持 ， 100 分 代表絕 對支持 ， 50 分代表 一半半 ， 你會 俾幾多 分特首 

梁振 英呢？ 

■ Q2: 假設 明天選 舉特首 ， 而 你又有 權投票 ， 你會 唔會選 梁振英 做特首 ？ 

備受爭 議的民 望評分 即來自 Q1 的答案 。 基於近 日公眾 的關注 ， 港大民 研網站 
公 布了最 近一次 （2014 年 3 月 3 日 -6 日） 的原 始數據 ， 檔案 格式為 SPSS ， 內裡 
包含了 Q1 的 數據共 1017 條， 亦即 此次調 查的樣 本數。 根據 SPSS 檔内的 說明， 

其 數據結 構如下 ： 

■ 第一列 ： 1-1017 的編號 ； 

■ 第二列 ： 受訪者 所給的 Q1 的分數 ； 其中 3 條 記錄是 191 ， 代表 「不認 

識梁 振英」 。 16 條 記錄是 8888 ， 代表 「不 知道」 或 「不 肯講」 。 餘下 998 
條為 0-100 間 的整數 ， 即 為受訪 者給予 梁振英 的評分 。 



■ 第三列 ： 性別 ； 其中 1 代表男 ， 2 代表女 。 

■ 第四列 ： 年 齡組別 ； 其中 1 代表 18-29 ， 2 代表 30-39 ， 3 代表 40-49 ， 4 
代表 50-59 ， 5 代表 60-69 ， 6 代表 70 或以上 。 另有 4 筆 記錄是 -99 ， 代表 

拒答。 

■ 第五列 ： 一個代 表權重 的數字 ； 例 如第一 筆記錄 的人的 權重是 

0.85422675557 ， 表 示他在 經加權 處理的 樣本中 ， 只代表 0.85422675557 

個人。 

就著 Q1 的答案 ， 港大 民研原 先發表 的報告 中只報 告了以 下數點 (《 港 大 民研發 
放 特首及 問責司 局長民 望數字 》） ： 

1. 特首 梁振英 的最新 支持度 評分為 47.5 分 ， 跟兩星 期前變 化不大 。 

2. 樣 本數是 1017。 

3. 回 應率是 65.9% 。 

4. 誤 差率是 +/-1. 5 ， 即 3% (以 95 % 置 信水平 計算） 

註 ： 報告 亦提及 ， 根據民 研計劃 的標準 ， 梁振 英屬於 「表現 失敗」 ， 其定 義為反 
對 率超過 50% 。 但反對 率來自 Q2 的答案 ， 不在本 文討論 範圍內 。 有論 者認為 
「表現 失敗」 是因為 梁的平 均分在 50 分以下 ，從而 引發關 於定義 合格分 數的批 
評 。 按照 調查中 所用的 「民 望級別 總表」 中 的定義 ， 這 項批評 並不符 合事實 。 

分析 及評論 

參照 前述抽 樣調査 可能出 現的幾 種誤差 ， 比較港 大民研 網站所 列的研 究方法 、 數 
據 和分析 ， 我們可 以評價 港大民 調在特 首民望 評分上 面的合 理與否 。 
港 大民調 以電話 進行隨 機訪問 ， 對 種籽電 話號碼 進行加 減處理 ， 並 以生日 日期選 
取家 庭成員 作訪問 。 最終 成功訪 問的樣 本數達 1000 以上 ， 回應率 65.9% ， 又對 
數據 進行加 權處理 ， 應 能很大 程度上 確保了 樣本的 代表性 。 以家用 電話號 碼來抽 
樣 ， 可能 會出現 美國研 究中描 述的偏 頗情況 。 但目前 沒有證 據顯示 ， 忽略 手提電 
話的 使用者 會對關 於特首 民望的 調查造 成偏頗 的結果 ， 因此 不能以 此作為 對港大 
民調 的指控 。 

文 獻指出 人們可 能會因 為自己 的意見 屬於少 數派而 不敢發 表真實 的意見 ， 即 「沉 
默的 螺旋」 現象 。 但是次 電話訪 問以匿 名進行 ， 應能減 低人們 的擔憂 。 而且即 
使 「沉 默的 螺旋」 存在 ， 除非 人們認 為大多 數人都 很極端 ， 否則 「沉 默的 螺旋」 
亦只會 令人們 傾向選 取中間 的答案 ， 不 會反過 來導至 「極端 答案」 的出現 。 
訪問用 語方面 ， 問卷的 說明是 0 分代 表絕對 不支持 ， 100 分 代表絕 對支持 ， 50 
分代表 一半半 。 如果受 訪者要 從這三 個分數 中選擇 ， 大部分 都會選 中間的 50 分 。 
如果 要給其 它分數 ， 受訪者 就要思 考其它 的數字 。 圖一顯 示各分 數的出 現頻率 ， 
圖 二將這 頻率以 圖象方 式表達 。 從 這些數 據可知 ， 受訪 者傾向 給出簡 單的數 ， 其 
中 0 字 尾的數 字最多 （如 0,10,20,30,... ) ， 5 字 尾的數 字較少 ， 其它 數字最 多只有 



幾個 人選擇 。另外 ，選 50 分的人 非常多 ，共 280 人， 選 0 分的有 91 人， 選 100 
分 的也有 29 人 。 這三 個分數 的出現 頻率比 旁邊的 分數多 出很多 。 理論上 ， 1 分 
甚或 10 分 的相差 應該算 是輕微 的變化 ， 但 對受訪 者來說 ， 這 0,50,100 三 個分數 
都 具有獨 特意義 。 1 分跟 2 分之間 可能沒 有差別 ， 0 分與 1 分之間 的差別 卻是巨 
大的 ， 是 質變而 非量變 。 同理 ， 100 分與 99 分之間 ， 49 、 50 、 51 分之間 的差別 
亦然 。 民調要 求受訪 者給出 0-100 之間 的分數 ， 並以 此計算 平均值 ， 是假 定了這 
個分 數跟受 訪者心 目 中對特 首的支 持度之 間有一 連續變 化的線 性關係 。 事實上 ， 
問題 的問法 賦予了 三個分 數特別 的意思 ， 客 觀上扭 曲了分 數分布 。 這 效應在 50 
分 這一臨 界點尤 為重要 ， 下面 再詳述 。 



> table(A$score) 
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圖一 •• 各分 數的頻 率分布 

Score distribution (bin size=1) 
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原報 告以報 導平均 分為主 ， 新 聞媒體 主要亦 以這個 數字作 為討論 的根據 。 如前所 
言 ， 平均分 只是總 結統計 數據的 其中一 種方式 ， 不同 的統計 量會給 出不同 方面的 
資訊 。 平 均分是 最常用 的方式 ， 其 好處是 計算涉 及所有 的數據 ， 壞 處是易 受極端 
數 字影響 。 如果數 據中出 現極端 的數字 ， 一般 做法是 以中位 數取代 。 中位 數是指 

將數據 順序排 列之後 排在中 間的數 。 例如 ， 數集 {0,0,0,0,100} 的平 均值是 20 ， 

中 位數是 0 。 平均 值因受 100 影響 ， 其數 值不能 很好地 反映數 集的中 央趨勢 。 反 

之 ， 中位數 只取決 於數字 的排列 ， 在這 情況下 就較能 反映中 央趨勢 ， 這就 是為甚 
麼入 息通常 都是以 中位數 而非平 均值來 計算中 央趨勢 。 至 於眾數 ， 則是頻 率最高 

的數 ， 在這例 子也是 0 。 也有 一些情 況是三 個數字 都不能 很好地 反映中 央趨勢 。 
例如 ， 數集 {0,0,0,100,100,100} 的平 均值是 50 ， 中 位數是 50 (中 間兩個 數的平 

均） ， 眾數是 0 和 100 (因頻 率相同 ） ， 三 個數字 都難以 代表數 集的總 體特性 ， 
因為 數集本 身就是 分化成 兩邊的 。 一 般來說 ， 只有當 分布接 近鐘形 分布時 ， 這三 
個 統計量 才能較 好地反 映現實 。 

從 原始數 據可知 ， 是次 民調的 分數分 布並不 依從鐘 形分布 ， 單純從 數字很 難對統 
計 結果作 出全面 的認識 ， 因此以 下改由 圖表進 行分析 。 

圖三 是以每 10 分為一 組的頻 率分布 ， 是 未經加 權處理 的結果 ， 分組 方法為 
0-<10 、 10-<20 、 20-<30 、 30-<40 、 40-<50 、 50-<60 、 60-<70 、 70-<80 、 80-<90 、 90-<100 ， 
100-<110 。 留 意最後 一個分 組實際 上只有 100 分 的分數 。 一般做 法是把 100 分歸 
入 前一組 ， 變成 90-100 。 但因 在這組 數據中 ， 100 分出現 了峰值 ， 所以做 了這個 

特 別處理 ， 以免 影響了 前一組 的結果 。 加權 處理則 按各權 重調整 每一組 的頻率 ， 
分組方 法相同 ， 結 果如圖 四所示 。 

Score distribution 




圖三 ： 未經 加權處 理的頻 率分布 



Score distribution (weighted) 




圖四 ： 經過 加權處 理的頻 率分布 

兩幅圖 只有些 微差別 。 由 於本文 的分析 以看圖 表為主 ， 不涉 及計算 合格不 合格的 
問題 ， 為了方 便說明 ， 以 下將採 用未經 加權處 理的頻 率分布 。 

跟圖 二的結 果一樣 ， 圖 三清楚 展現了 0 分、 50 分和 100 分的 特殊性 。 除 了總體 
的 分布外 ， 港大 公佈的 原始數 據還包 括年齡 和性別 的資料 ， 因此我 們也可 以按性 
別和 年齡分 別畫出 各組別 的分布 ， 如下 面兩幅 圖所示 。 
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圖五 •■ 以 性別分 組的分 數分布 



圖六 ： 以 年齡分 組的分 數分布 

先看 0 分 的情況 。 無論是 按性別 還是年 齡分組 ， 都可 以看到 0-<10 分處出 現尖峰 。 
從 原始數 據或圖 二都可 以看出 ， 在 這個組 別裡絕 大部分 都是直 接給了 0 分。 進一 
步說 ， 男性受 訪者給 0 分 的人較 女性多 ， 有接近 15% 。 而 30-39 歲的 組別給 0 分 
的人 較其它 組別多 ， 亦 是接近 15% 。 從 40 歲開始 ， 年 紀越大 的組別 ， 越 少人給 
0 分 。 即使 忽略了 這些給 0 分 的情況 ， 也可 以看出 18-29 歲及 30-39 歲 的市民 ， 
評 分少於 50 分 的較評 分多於 50 分 的為多 。 而 隨著年 紀增加 ， 排除 0 分之 後兩邊 
趨 向平衡 。 到了 60-69 歲及 70 歲 或以上 的組別 ， 則有向 右邊發 展之勢 。 因此 ， 
如 果以給 0 分的 作為對 特首極 度不滿 的標示 ， 則可 以看出 最不滿 特首的 是介乎 
30-39 歲 的市民 。 從 40 歲的組 別開始 ， 年 紀越大 的市民 對特首 的支持 度越高 。 
18-29 歲 是剛剛 畢業出 來工作 的年紀 ， 30-39 歲是成 家立業 的年紀 。 這兩 個年齡 
層 的不滿 ， 或 許反映 了政府 在經濟 、 就業等 政策上 的不足 ， 也有可 能是這 個年齡 
層的 人較關 心政治 ， 尤 其是在 民主發 展上產 生不滿 。 真正原 因必須 經進一 步研究 
確定 ， 本文 只能從 數據上 指出這 一現象 ， 沒有 足夠的 資料作 出解釋 。 

再看 50 分和 100 分 的尖峰 。 明顯的 100 分 尖峰只 出現在 70 歲 或以上 的組別 。 事 
實上 ， 70 歲 或以上 的組別 ， 50 分尖 峰兩邊 的分布 很均勻 ， 而 50 分 尖峰比 其它組 
別 都突出 。 圖二 的分布 也顯示 ， 50 分尖峰 的人數 ， 遠遠超 出了鐘 形分布 應有的 
數量 。 透過 比較旁 邊兩組 的高度 ， 大約也 是多了 15% 。 如 前所述 ， 問題的 設計很 
容易令 人選擇 50 分。 這 些人要 麼真是 覺得自 己對特 首的支 持度是 一半半 ， 也有 
可能 只是覺 得難以 下決定 ， 或 者根本 沒有打 算認真 思考這 個問題 ， 只好給 一個中 
間 的分數 。 如果這 班人經 過了詳 細思考 ， 就可 能會給 出較高 或較低 的分數 。 鑑於 
這班 人的人 數不少 ， 他們 的決定 會對整 體分布 產生關 鍵影響 。 無奈 問卷的 設計無 
法把這 批人分 辨出來 ， 因此我 們不知 道這班 人的真 正取態 。 



Score distribution by age 
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總結 及建議 

本文 透過統 計學分 析方法 ， 嘗 試檢視 近日輿 論對港 大民調 的批評 及反駁 ， 探討這 
些言 論背後 的統計 學理據 。 本文作 者認為 ， 港 大民調 在抽樣 方面十 分嚴謹 ， 但在 
設計問 卷和演 繹結果 方面有 值得適 榷之處 。 

其中 ， 無論以 平均分 、 中位數 還是眾 數來進 行統計 ， 都不能 全面地 反映調 查結果 。 
應 該同時 公布頻 率分布 ， 甚 至是各 年齡組 別的頻 率分布 ， 才 能從中 提出改 善施政 
的建議 。 在 分析極 端分數 的時候 ， 我們 可以把 這些分 數分開 來考慮 ， 以反 映其他 

人 的意見 ， 但極 端分數 還是有 它的重 要價值 。 至 於給予 50 分的人 數眾多 ， 本文 
認為是 來源於 問卷設 計出現 了問題 ， 致使 難以得 知這些 人的真 正取態 ， 降 低了調 
査 的價值 。 

關於合 格分數 的問題 ， 由於 原問卷 設計中 ， 50 分只是 一半半 的意思 。 以 50 分為 
合格 分數可 能符合 一些人 的直覺 ， 但本 文認為 沒有壓 倒性的 理由以 此定義 為合格 
分數 。 合 格是最 低要求 的指標 ， 但 這個最 低要求 設在何 處則是 沒有一 定準則 。 即 
使 在學校 的考試 制度裡 ， 合 格分數 也並非 每間學 校相同 ， 只能說 通常在 40-60 分 
之間 。 本文同 意鍾氏 的說法 ， 50 分 只是一 個中性 的分數 ， 沒有必 要跟合 格不合 
格掛鈎 。 傳媒亦 不應再 以此作 為報導 的焦點 。 

此外 ， 從按 年齡組 別畫出 的分數 分布可 以看出 ， 民調 的數據 確能反 映一些 重要的 
社 會現象 。 雖 然大多 數人中 間落墨 ， 所謂 的極端 分數只 佔少數 ， 但亦有 一成之 
眾 ， 而且 集中在 30-39 歲 的組別 。 在一個 社會裡 ， 沉 默的大 多數和 激進的 極少數 
同 樣重要 。 前 者是社 會穩定 的要素 ， 後者 是變革 的動力 ， 缺 一不可 。 為甚 麼某些 
組別 的人給 了最差 的評分 ， 他們最 關注的 是甚麼 ， 這方 面的跟 進工作 ， 不 但能夠 
回應 這組人 的關注 ， 亦 有可能 帶動社 會的整 體進步 ， 從 政者責 無旁貸 。 

最後 ， 本文作 者很感 謝港大 民研公 開最近 一次民 調的原 始數據 ， 讓 社會大 眾可以 
進行更 深入的 分析。 然而 SPSS 只是學 術界常 用的統 計軟件 ，但如 果數據 的使用 
對 象是傳 媒或一 般大眾 ， 通 常的做 法是一 併提供 CSV 和 Excel 版本 ， 有 時也會 
提供 XML 版本 （參看 ： 美國 政府的 (Data.gov 》 、 香港 政府的 《 資料 一線通 ») 。 
現時在 MS Excel 上開啟 SPSS 格式檔 案必須 另外安 裝插件 ， 本文 作者亦 是使用 
了 PSPP (《 PSPP — GNU Project - Free Software Foundation 、、 或在 R ((The R 
Project for Statistical Computing ))) 安裝 某些特 定的程 序包才 能開啟 。 若能 以比較 
普及的 格式提 供數據 ， 將有 助資訊 的透明 和公開 。 
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